·
Cursos Gerais ·
Econometria
Send your question to AI and receive an answer instantly
Recommended for you
5
Trabalho de Econometria II - Análise de Regressão Linear da Produção de Automóveis
Econometria
PUC
52
Econometria - Modelagem de Processos Não Estacionários e Modelo ARIMA
Econometria
PUC
1
Analise Econometrica Fatores Determinantes Trabalho Feminino MPL Logit Probit - Relatorio Word
Econometria
PUC
2
Plano de Ensino Econometria III - FEA USP 2022
Econometria
PUC
1
Anotacoes-Apêndices-A-B-C-Estudo-Para-Pontos-Extras
Econometria
PUC
1
Analise Econometrica dos Determinantes do Tabagismo Modelos MPL LOGIT e PROBIT
Econometria
PUC
1
Lista de Exercicios Estatistica Calculo de Metricas e Testes
Econometria
PUC
1
Anotacoes-Apêndices-A-B-C-Estudo-Para-Curso
Econometria
PUC
4
Redes Neurais Artificiais - Aplicações em Business Analytics
Econometria
PUC
38
Quiz Econometria Analise de PIB e Modelos Lineares
Econometria
PUC
Preview text
ISBN 9788571731417 Econometria Aplicada no EViews Igor Morais Filipe Stona Gustavo Schuck Fundação de Economia e Estatística SECRETARIA DO PLANEJAMENTO MOBILIDADE E DESENVOLVIMENTO REGIONAL ISBN 9788571731417 FUNDAÇÃO DE ECONOMIA E ESTATÍSTICA Siegfried Emanuel Heuser Econometria Aplicada no EViews Igor Morais Filipe Stona e Gustavo Schuck Porto Alegre outubro de 2016 SECRETARIA DO PLANEJAMENTO MOBILIDADE E DESENVOLVIMENTO REGIONAL FUNDAÇÃO DE ECONOMIA E ESTATÍSTICA Siegfried Emanuel Heuser CONSELHO DE PLANEJAMENTO André F Nunes de Nunes Angelino Gomes Soares Neto André Luis Vieira Campos Leandro Valiati Ricardo Franzói Carlos Augusto Schlabitz CONSELHO CURADOR Mayara Penna Dias Olavo Cesar Dias Monteiro e Irma Carina Brum Macolmes DIRETORIA DIRETOR TÉCNICO MARTINHO ROBERTO LAZZARI DIRETOR ADMINISTRATIVO NÓRA ANGELA GUNDLACH KRAEMER CENTROS ESTUDOS ECONÔMICOS E SOCIAIS Vanclei Zanin PESQUISA DE EMPREGO E DESEMPREGO Rafael Bassegio Caumo INDICADORES ECONÔMICOS E SOCIAIS Juarez Meneghetti INFORMÁTICA Valter Helmuth Goldberg Junior INFORMAÇÃO E COMUNICAÇÃO Susana Kerschner RECURSOS Grazziela Brandini de Castro Bibliotecário responsável João Vítor Ditter Wallauer CRB 102016 2016 Igor Morais Publicado pela Fundação de Economia e Estatística Siegfried Emanuel Heuser É permitido reproduzir compartilhar e derivar trabalhos desta obra desde que citada a fonte sendo proibido o uso para fins comerciais a menos que haja permissão por escrito do detentor dos direitos autorais As opiniões emitidas neste livro são de exclusiva responsabilidade dos autores não exprimindo necessariamente um posicionamento oficial da FEE ou da Secretaria do Planejamento Mobilidade e Desenvolvimento Regional Capa Laura Wottrich Como referenciar este trabalho MORAIS I A C de STONA F SCHUCK G Econometria Aplicada no EViews Porto Alegre FEE 2016 FUNDAÇÃO DE ECONOMIA E ESTATÍSTICA Siegfried Emanuel Heuser FEE Rua Duque de Caxias 1691 Porto Alegre RS CEP 90010283 Fone 51 32169132 Fax 51 32169134 Email bibliotecafeetchebr Site wwwfeersgovbr M827e Morais Igor A Clemente de Econometria Aplicada no EViews Igor Morais Filipe Stona M827e e Gustavo Schuck Porto Alegre FEE 2016 182 p il ISBN 9788571731417 1 Econometria 2 Estatística 3 EViews programa de M827e computador I Stona Filipe II Schuck Gustavo III Fundação de M827e Economia e Estatística Siegfried Emanuel Heuser IV Título CDU 33043 Sumário I Parte Um 1 EViews R 9 11 Programando no Eviews 10 111 Exemplo de Programação 10 12 Como abrir dados no EViews R 12 13 Do Excel para o EViews R 13 14 Criando um Workfile 15 15 Abrindo os dados do FRED 16 2 Gráficos no EViews R 19 21 Dados Categóricos 28 22 Exemplos de programasprg 29 3 Funções de Distribuição 31 31 A Curva Normal 33 32 A curva tstudent 40 33 A Curva QuiQuadrado 42 34 Curva F 49 35 Distribuição de Poisson 51 36 Exercícios 52 37 Sites úteis 54 4 Estatísticas testes de hipótese e ANOVA 55 41 Histograma e Estatísticas 56 42 Estatísticas por classificação Statistics by Classification 59 43 Testes de Hipótese 60 44 Teste de Igualdade por Classificação 61 45 Teste de Distribuição Empírica KolmogorovSmirnov 62 46 Teste de Igualdade Test of Equality 64 47 Gráficos Analíticos Fazendo a distribuição dos dados 64 48 Teste de Razão de Variância 65 49 Exercícios 72 5 Séries de tempo 75 51 Ajuste Sazonal 75 511 Método das Médias Móveis Moving Average Methods 77 512 TRAMOSEATS 80 513 Método Census X12 81 514 Método Census X13 86 515 Alisamento Exponencial 88 52 ETSERRORtrendseasonal 93 53 Ciclo 98 531 Filtro HodrickPrescott 98 532 Filtros de Frequência 100 533 O Filtro CorbaeOuliaris 104 54 Autocorrelação Correlograma 105 55 Análise Espectral 108 56 Exercícios 111 57 Bibliografia 112 6 Regressão Simples 115 61 Diagnóstico Dos Coeficientes 124 611 Scaled Coefficients 125 612 Intervalo de Confiança 125 613 Teste de Wald 127 614 Confidence Ellipse 129 615 Variance Inflation Factors 130 616 Decomposição da Variância do Coeficiente 131 617 Variáveis Omitidas 131 618 Variáveis Redundantes 134 619 Teste Factor Breakpoint 135 62 Diagnóstico Dos Resíduos 137 621 Teste de Normalidade 137 622 O teste de Independência BDS 138 623 Correlograma Qstat 139 624 Correlograma dos Resíduos ao Quadrado 140 625 Teste de Autocorrelação LM 140 626 Testes de Heteroscedasticidade 142 63 Diagnóstico De Estabilidade 147 631 Teste de Chow 147 632 Teste de QuandtAndrews 150 633 Teste de Previsão de Chow 152 634 Teste de Ramsey 153 635 Estimativas Recursivas 153 636 Leverage Plots 157 637 Estatísticas de Influência 158 64 Previsão Forecast 158 65 ANEXO ESTATÍSTICO 164 651 MÍNIMOS QUADRADOS ORDINÁRIOS 164 66 Bibliografia 166 7 Regressão Múltipla 167 71 O modelo com duas variáveis independentes 168 72 Previsão Forecast 175 73 Método STEPLS 176 731 Os métodos de Seleção STEPLS 178 74 Bibliografia 180 Referências Bibliográficas 180 I 1 EViews R 9 11 Programando no Eviews 12 Como abrir dados no EViews R 13 Do Excel para o EViews R 14 Criando um Workfile 15 Abrindo os dados do FRED 2 Gráficos no EViews R 19 21 Dados Categóricos 22 Exemplos de programasprg 3 Funções de Distribuição 31 31 A Curva Normal 32 A curva tstudent 33 A Curva QuiQuadrado 34 Curva F 35 Distribuição de Poisson 36 Exercícios 37 Sites úteis 4 Estatísticas testes de hipótese e ANOVA 55 41 Histograma e Estatísticas 42 Estatísticas por classificação Statistics by Classifica tion 43 Testes de Hipótese 44 Teste de Igualdade por Classificação 45 Teste de Distribuição Empírica Kolmogo rovSmirnov 46 Teste de Igualdade Test of Equality 47 Gráficos Analíticos Fazendo a distribuição dos dados 48 Teste de Razão de Variância 49 Exercícios 5 Séries de tempo 75 51 Ajuste Sazonal 52 ETSERRORtrendseasonal 53 Ciclo 54 Autocorrelação Correlograma 55 Análise Espectral 56 Exercícios 57 Bibliografia 6 Regressão Simples 115 61 Diagnóstico Dos Coeficientes 62 Diagnóstico Dos Resíduos 63 Diagnóstico De Estabilidade 64 Previsão Forecast 65 ANEXO ESTATÍSTICO 66 Bibliografia 7 Regressão Múltipla 167 71 O modelo com duas variáveis independentes 72 Previsão Forecast 73 Método STEPLS 74 Bibliografia Referências Bibliográficas 180 Parte Um 1 EViews R Do ponto de vista operacional o EViews R é muito mais do que um simples pacote estatístico com uma boa interface Esse software permite ao usuário manter seus modelos atualizados em tempo real conectando o mesmo a dados na internet Permite programar rotinas diversas com vários modelos e a despeito das falhas de testes estatísticos de fronteira o usuário pode ainda se conectar com outros softwares como o R e o Matlab O EViews R pode ser utilizado para análises estatísticas e econométricas de três diferentes maneiras interface gráfica comandos individuais e arquivo de programa A interface gráfica nos remete a tudo que o usuário visualiza e interage através do uso do mouse barra de menus e as janelas como workfile spreadsheet e gráficos a Interface gráfica b Janela de comando c Programa Figura 11 Acessando o EViews R Outra forma de acessarmos as funções do software é por instruções de comando O EViews R nos possibilita duas maneiras a primeira é pela janela de comando em branco logo abaixo da barra de menus Nesta podemos executar instruções de somente uma linha como por exemplo wfcreate u 1000 e pressionar enter pronto criamos um workfile com 1000 observações Tornase útil e veloz quando se está trabalhando com a interface gráfica e quer executar comandos simples A última maneira é por um arquivo de programa no formato prg Através dos programas podemos mandar instruções mais complexas trabalhar com um conjunto superior de dados salvar nossas linhas de programação para aplicações futuras e conectar oEViews R a diferentes bancos de dados 10 Capítulo 1 EViews R ou outros softwares Nesse capítulo faremos uma breve introdução sobre essas três diferentes formas de usar o EViews R 11 Programando no Eviews Para criar um programa é necessário abrir uma porta especifica que fica em FileNewProgram Como workfiles e demais objetos o EViews R nos permite trabalhar com apenas um programa aberto sem nomear por vez o untitled Para dar nome ao seu programa e consequentemente salvar na extensão prg pressione save ou save as na barra de menu da janela do programa e escolha o local desejado Figura 12 Programa sem Título Uma vez salvo os programas podem ser abertos através da barra de menus em File Open e então Programs Para executálos basta pressionar Run na barra de menu da janela do programa aberto Porém muito cuidado ao fazer isso pois se o caminho do programa não coincidir com o banco de dados ou se as variáveis que foram nomeadas não forem iguais será retornado erro 111 Exemplo de Programação No EViews R os programas são executados linha por linha e cada linha é entendida como um comando Comentários não executáveis podem ser adicionados depois do apóstrofo e tomam a cor verde na janela de programação Programação 111 As linhas de comando a seguir criam um workfile uma série aleatória denominada dados e salva o valor da média no escalar a wfcreate u 100 Comentário workfile não estruturado com 100 observações series dados rnd scalar a meandados show a Primeiro é criado um workfile não estruturado utilizando o comando wfcreate u Na segunda linha series é o comando executado para criar ou alterar uma série de dados Aqui nomeamos a série criada com o nome dados e pelo comando rnd geramos valores aleatórios No caso de 11 Programando no Eviews 11 alterarmos a linha 2 para series dados 2 a série dados irá tomar o valor 2 em cada observação Depois de criarmos dados é utilizado o comando meanx para calcular sua média Então guardarmos esse valor dentro de um escalar denominado a O comando show apresenta qualquer objeto na tela nesse caso a Partindo do nosso programa inicial podemos extrair mais informações da série dados Por exemplo para o número de observações desvio padrão valor máximo e mínimo utilizamos respectivamente os comandos obsx stdevx maxx e minx wfcreate u 100 series dados rnd vector5 a a1 obsdados a2 stdevdados a3 meandados a4 maxdados a5 mindados show a Note que no lugar do escalar a utilizamos um vetor a isso nos possibilita guardamos mais posições de informações Esse vetor foi incluído para ter 5 linhas Na mesma linha de raciocínio podemos desenvolver um programa que crie um workfile com agora cinco séries aleatórias e guarde o número de observações desvio padrão valor médio máximo e mínimo wfcreate u 100 matrix55 a for a 1 to 5 series dadosa rnd a1a obsdadosa a2a stdevdadosa a3a meandadosa a4a maxdadosa a5a mindadosa next show a Diferente do programa anterior utilizamos uma matriz 5x5 aao invés do vetor a para acomodar mais de uma coluna Note que usamos o comando a Esse é para permitir que uma variável tenha um intervalo numérico Também é aplicada a instrução for que abre o loop encerrado pelo next Este laço possibilita criarmos um circuito onde a variável atomará inicialmente o valor 1 procederá as linhas seguintes até o comando next que aumenta aem 1 e retorna a execução do programa para a linha do for até que aguarde o valor 5 e quebre o circuito Desta forma sempre que houver um for existirá um next correspondente Para finalizar nosso programa podemos adicionar um cabeçalho à nossa matriz a O EViews R não permite o uso de texto dentro de matrizes e por isso utilizamos tablelinhacoluna que cria um objeto tabela Na terceira até a oitava linha adicionamos o cabeçalho na primeira coluna da tabela a Note que textos são armazenados sendo colocados dentro de aspas 12 Capítulo 1 EViews R wfcreate u 100 table66 a a11 EstatísticasSérie a21 Obs a31 Desvio Padrão a41 Média a51 Máximo a61 Mínimo for a 1 to 5 series dadosa rnd a11a dadosstra a21a obsdadosa a31a stdevdadosa a41a meandadosa a51a maxdadosa a61a mindadosa next show a Outro detalhe a ser observado é na linha 11 onde é preenchido a primeira linha de acom o nome das séries Para a tabela aceitar o dadosseguido dos valores de a1234 e 5 em forma de texto é utilizado o comando strnúmero que transforma os valores numéricos em texto Note que as variáveis de controle iniciadas com exclamação são utilizadas para armazenar números Já as variáveis iniciadas com o símbolo de porcentagem guardam informações de texto Programação 112 Uma maneira prática de manipular um conjunto de séries de tempo é agregando em um grupo Abaixo agrupamos todas as séries do workfile em um grupo de nome g Na segunda linha tiramos a série resid do nosso grupo e então na terceira linha instruímos o EViews R a buscar o nome da primeira série do grupo ge guardar esse informação em a group g gdrop resid a gseriesname1 scalar b meana show b Na quarta linha gravamos a média de adentro do escalar be então exibimos b Note que adicionamos colchetes em a isso faz com que o EViews R execute o texto dentro da variável Não se esqueça de salvar Ao longo desse livro iremos exemplificar diversas ações que podem ser feitas criando seu próprio programa A idéia é que ao final do livro você tenha desenvolvido as habilidades mínimas para criar um programa 12 Como abrir dados no EViews R Há várias formas de abrir dados no EViews R e cada uma delas irá depender do tipo de informação que será utilizado e dos objetivos de pesquisa As opções para criar um banco de dados são muitas 13 Do Excel para o EViews R 13 mas para os propósitos desse livro precisaremos apenas aprender como abrir ou criar os chamados workfile Para tanto iremos dividir essa análise em duas partes Primeiro abordando sobre a criação de um conjunto de dados no Excel que posteriormente são lidos noEViews R A seguir criando um workfile e copiando e colando dados Qual das duas alternativas escolher fica a seu critério 13 Do Excel para o EViews R Vamos supor que se tenha um conjunto de séries de tempo de periodicidade trimestral com início em 2006Q1 e término em 2014Q2 Essas podem ser vistas no arquivo em Excel de nome dadosexemplo1 Figura 13 Importando dados do Excel Como primeiro passo abra o EViews R Note que por hora não há nada disponível nem dados informação sobre a periodicidade e etc A seguir vá em FileOpenForeign Data as Workfile ver figura 13 E selecione o ar quivo em Excel vá até a pasta onde o mesmo foi salvo Depois clique em Ok A janela de opções que se abre a seguir consiste de três passos É muito comum que não se mudem as informações no primeiro e no segundo passos Nesse caso podemos clicar emavançar nesses dois primeiros passos Porém no terceiro passo caso não se modifique algumas opções pode ser que o arquivo final não fique tal como desejado Em especial se não especificarmos a periodicidade e as datas Sendo assim no passo três selecione Dated regular frequency que sempre será utilizado quando tivermos uma série de tempo e depois a periodicidade trimestral Quarterly conforme a figura 14a Por vezes o arquivo do Excel já tem uma série com os dados Nesses casos a opção Dated specified by date series identifica automaticamente a frequência e o início da série basta informar no campo Date series o nome da série que tem essa informação ver figura 14b Por fim digite a data inicial como 2006Q1 e clique em Finish Pronto agora temos um workfile de 30 trimestres contendo cinco séries de tempo com os respectivos nomes que estavam no Excel J30D INF PIB e DES Programação 131 Uma forma de fazer a abertura de um workfile é via programação que dá muita agilidade ao trabalho Basta aplicarmos o comando wfopen seguido do caminho onde se encontra o arquivo com as séries wfopen cexemplo1xlsx Um último ponto importante para salientar nesse momento é sobre a forma que as datas são inseridas no EViews R Como pode ser visto no exemplo acima especificamos primeiro o ano seguido da letra que compõem a periodicidade no caso de trimestre Q e no caso de meses M para então colocar o período Como os dados começam no primeiro trimestre colocamos 1 Se os dados tivessem como início março de 1996 especificaríamos 1996M3 Note que os dados estão no formato Inglês onde os decimais são separados por ponto Caso seu computador estiver no formato Portugês Brasil teremos problema na hora que o EViews R abrir esses dados do excel Ele irá confundir os pontos com as vírgulas A sugestão é reconfigurar o computador para o Inglês americano A localização desta opção pode variar ligeiramente conforme a versão do Windows Para o Windows 7 acesse Painel de ControleRelógio Idioma e RegiãoRegião e Idioma na aba Formatos selecione o Formato Inglês Estados Unidos Então clique em Aplicar 14 Capítulo 1 EViews R a Estrutura frequência regular b Estrutura frequência definida por série Figura 14 Importando Dados e Ok Programação 132 Sempre que for iniciar um programa pode digitar os comandos abaixo para que seu banco de dados seja aberto automaticamente path runpath cd path Ao rodar os comandos acima o caminho utilizado para abrir os dados mostrado na barra de status no canto inferior da tela será alterado para o caminho que foi salvo o programa Sendo assim recomendase colocar o arquivo prgna mesma pasta em que se encontra o wf1 Desta forma se salvarmos o exemplo1xlsx dentro da mesma pasta do programa podemos importar os dados por programação path runpath cd path wfopen exemplo1xlsx Também é possível definirmos um caminho diferente do que o programa está salvo Alterando a primeira linha de comando path cnome da pasta cd path 14 Criando um Workfile 15 wfopen exemplo1xlsx 14 Criando um Workfile Figura 15 Criando Workfile Também podemos copiar os dados que estão no Excel e colar os mes mos no EViews R Nesse caso pre cisamos criar como primeiro passo um workfile Assim abra um novo arquivo do EViews R que não con tenha informações A seguir vá em FileNewWorkfile ou CtrlN Dentre as diversas opções disponí veis selecione Dated regular fre quency a seguir quarterly e especi fique o intervalo dos dados escrevendo a data inicial e final figura 15 Veja como é o formato de datas Primeiro o ano seguido da letra do período e depois o numero do período Programação 141 Para criar um workfile não estruturado utilizamos o comando wfcreate u seguido do número de observações desejadas Para criarmos um workfile mensal utilizamos a opção m seguida da data inicial e final Da mesma forma para frequência trimestral utilizamos q e anual a wfcreate u 100 wfcreate m 1990m1 2015m12 wfcreate q 1990q1 2015q4 wfcreate a 1990 2015 O arquivo que está sendo criado ainda não possui os dados apenas criamos o chamado workfile Para inserir os dados temos que primeiro criar um objeto figura 16a Vá em ObjectNew Object e selecione a opção Group Do lado direito escolha um nome para o grupo evite acentos espaços e etc seja bem simples nessas escolhas A seguir depois de clicar em Ok o EViews R irá abrir uma janela que é bem semelhante com planilhas do Excel Vá no Excel selecione apenas os dados não pegando as datas nem os nomes das séries copie e cole no EViews R A seguir feche o mesmo a Criando Workfile b Criando página com vínculo Figura 16 Novo Objeto 16 Capítulo 1 EViews R Note que agora temos um workfile e os dados mas as séries ficaram com nomes diferentes Isso pode ser resolvido clicando com o botão direito na série e renomeando a mesma Após ter os dados no EViews R há diversas outras formas de trabalhar com eles de forma a tornar a pesquisa mais fácil em especial quando se trabalha com uma grande quantidade de informação e diversos testes e estimativas Uma opção interessante do EViews R é o uso de diversas planilhas ao mesmo tempo sendo possível preservar o vínculo entre as variáveis Tal recurso permite trabalhar com diversos modelos separados por planilhas sem poluir o workfile principal Selecione as variáveis des inf j30d e pib A seguir clique com o botão direito do mouse na planilha de nome New Page selecione CopyExtract from Current Page e depois By Link to New Page Na janela que será aberta ao escrever all o EViews R irá copiar todo o período amostral Em Objects to copy selecione Listed Series como mostrado na figura 17 e deixe a opção Include Links selecionada Caso queira dar um nome para a nova planilha clique emPage Destination e em Page escreva o nome que quiser Figura 17 Objetos com vínculo Note que será criada uma nova planilha com os dados selecionados com cores diferentes Agora sempre que os dados nas séries da planilha original forem modificados o mesmo irá ocorrer com essas séries na nova planilha 15 Abrindo os dados do FRED Uma das funcionalidades interessantes do EViews R é poder abrir diversos formatos de dados e um deles que é bastante útil para análise de conjuntura são os dados do FRED que é uma base de dados disponibilizada pelo Federal Reserve of Saint Louis1 Como esse é um banco de dados disponibilizado na internet sua leitura só é possível se houver conexão à internet O primeiro passo é descobrir o nome da série que se quer abrir Nesse caso vá no site do Federal Reserve Board of Saint Louis e descubra o código da série que se busca Como exemplo vamos usar o PIB Real dos EUA em dólares de 2005 cujo código é GDPC1 Agora abra um arquivo do EViews R vá em File Open Database e selecione FRED database e clique e ok A janela que irá ser aberta é a que permite fazer a conexão com o banco de dados tal como a Figura 18a A seguir vá em EasyQuery abrindo a caixa de diálogo da Figura 1Se você ainda não conhece esse recurso vale a pena ver em httpresearchstlouisfedorgfred2 15 Abrindo os dados do FRED 17 a Seleção da Base de Dados b Easy Query Figura 18 Abrindo dados do FRED 18b e em name MATCHES escreva o nome da série No nosso caso GDPC1 e clique em ok A seguir dê dois cliques na série e exporte a mesma para um banco de dados Posteriormente iremos mostrar como é possível você mesmo criar um link entre o EViews R e um banco de dados que se queira para atualização automática Também é possível criar um addin que faz essa seleção automática é representada a partir de Fxx Pa x b ab fxdx Descoberta a função de densidade podemos usar a distribuição cumulativa Esta irá determinar o quanto da curva ou da probabilidade existe até determinado valor que se queira avaliar Para o exemplo de uma curva normal podemos encontrar qual a probabilidade de se ter um valor menor que x por exemplo Esse é dado por toda a área abaixo da curva e que é inferior ao ponto x O conceito de distribuição cumulativa é muito importante para os propósitos do entendimento da econometria e em testes de hipótese pois usamos esse conceito para encontrar o pvalor nos testes Para encontrar a resposta na distribuição cumulativa especificamos o ponto da curva que se queira e encontramos a área probabilidade até esse ponto A função do EViews que iremos utilizar para a distribuição cumulativa para o caso de termos uma distribuição normal é a cnorm e a área escura mostrada na figura 31 é a área resultante3 Mais a frente ao estudarmos sobre os testes de hipótese ficará claro que a área dada por 1 cnorm representa o pvalor ou como é comumente escrito probability Em termos matemáticos a representação da função de distribuição cumulativa é dada por Fx Pz x No exemplo da Figura 31 a área dada por cnormx pode ser representada a partir de Fx x fxdx Por fim a distribuição inversa irá representar a área da curva que é complementar à função de distribuição cumulativa Agora fazemos o procedimento inverso da cumulativa especificamos a área desejada e com isso obtemos o ponto na curva que representa essa área Aqui temos conhecimento da área da curva que estamos avaliando e queremos encontrar o ponto associado No EViews o comando utilizado para a distribuição inversa para o exemplo de uma curva normal é qnorm Todas essas três formas de avaliar uma função de distribuição estão disponíveis noEViews e serão aplicadas a diferentes formas de distribuição a seguir Nesse caso para cada uma das opções de uma distribuição o EViews fornece códigos diferentes Por exemplo para uma função de distribuição cumulativa também denominada de CDF usase o comando c Para uma função de probabilidade densidade usase d e por fim para uma função inversa q Também é possível criar funções de distribuição aleatórias a partir do comando r que gera números aleatórios Veremos isso nas aplicações para as diferentes distribuições a serem analisadas nos tópicos a seguir 3De maneira análoga ao visto na função de densidade cumulativa é precedida da letra c nos comandos do EViews Por exemplo clognorm cpareto cpoisson ctdist 2 Gráficos no EViews R O recurso de gráficos em econometria é muito útil para uma detecção prévia das características de um conjunto de dados como por exemplo sua distribuição a existência de tendência movimentos cíclicos sazonalidade outliers quebra estrutural clusters dentre outras No EViews R é possível personalizar a construção de gráficos escolhendo cores tamanho e estilo de letra linhas de tendência combinar diferentes tipos de gráficos vincular os mesmos aos dados e demais aspectos Há outras opções disponíveis em OptionsGraphics Default Deixamos para o leitor explorar esse ponto consultando o manual que acompanha o software Nesse capítulo iremos utilizar o arquivo do EViews R de nome exemplo1wf1 Abra o mesmo Ali irá ver cinco séries de dados de nome qx y px pm qm Inicialmente dê dois cliques na série de nome qx O EViews R irá abrir uma janela que se parece com as planilhas do Excel A sequência de dados que vemos é denominada de série de tempo Note que na primeira coluna temos as respectivas datas que para esse exemplo é trimestral com início no primeiro trimestre de 1997 e terminando no segundo trimestre de 2015 Porém o intervalo vai até 2015Q4 o que resulta em uma sequencia de células que estão vazias com o termo NA Isso irá facilitar quando quisermos prever o comportamento dos dados para alguns períodos a frente Veremos isso no capítulo de regressão simples A seguir a partir do menu ViewGraph Note que há várias opções de gráficos O mais comum e que será mais explorado aqui é fazer um gráfico de linha Selecione esse e o resultado é como aparece na figura 21 Alternativamente podemos fazer um gráfico de barras para esse conjunto de dados Clique com o botão direito do mouse sobre o gráfico e depois Options e selecione Bar O mesmo pode ser aplicado a cada uma das outras opções Outra alternativa é usar o menu opções localizado logo acima do gráfico Note que ao fazer o gráfico aparece na parte inferior do mesmo uma barra de rolagem A partir dessa podemos deslizar o gráfico para diferentes datas basta que mova o cursor na barra para a esquerda ou para a direita O EViews R permite que se escolha entre diferentes maneiras de apresentar os gráficos mudando o fundo para cor branca tornando as linhas mais nítidas mudando a cor das linhas e etc Para verificar todas essas opções com o gráfico aberto clique com o botão direito do mouse e selecione 20 Capítulo 2 Gráficos no EViews R Figura 21 Opções de Gráficos Templates A seguir escolha cada um dos modelos e antes de clicar em Ok clique em Apply para ver se te agrada Programação 201 Para fazer um gráfico usamos o comando graph Para o exemplo de um gráfico de linha aplicado à série qx colocamos o termo abaixo criando um gráfico de nome gqx A seguir especificamos que a linha tem cor vermelha dado pelo RGB25500a graph gqxline qx gqxsetelem linecolor25500 Dentre as várias opções a serem utilizadas em um gráfico de linha uma das mais úteis para a econometria é a padronização dos dados Nesse caso o que fazemos é criar um gráfico onde cada informação é subtraída da média e depois dividida pelo desviopadrão Assim o resultado final é uma nova sequencia de dados onde a média é zero e o desviopadrão é 1 Para essa opção use graph gqxlinen qx aSe quiser outra cor consulte os códigos de cores RGB Após criar o gráfico como mostrado no box de programação o produto final é um gráfico no estilo congelado ou frozen Esse é uma espécie de gráfico desvinculado dos dados O inconveniente dessa opção é que toda vez que os dados originais forem atualizados isso não será feito no nosso gráfico ou seja ao aplicar o freeze no gráfico o mesmo perde o vínculo com os dados Para contornar esse problema devemos voltar a vincular os dados ao gráfico Dê dois cliques no gráfico gqx A seguir selecione Graph Updating e do lado direito as opções Automatic e mais abaixo Update when data or the workfile sample changes Programação 202 Podemos montar um programa que faça automaticamente a atualização dos nossos gráficos Primeiro criamos um gráfico de nome gqx e depois especificamos pelo comando setupdate e entre parênteses a que o mesmo seja atualizado sempre que o conjunto de dados mudarem Ao fazer isso note que a cor da caixa que especifica o gráfico no workfile muda da cor verde para alaranjado 21 Figura 22 Gráfico de qx com a distribuição de frequência graph gqxlinen qx gqxsetupdatea Vimos anteriormente que também temos a opção de criar um gráfico de barra Porém essa não é muito interessante quando há uma série de dados com muitas informações isso porque as barras acabam ficando muito finas fazendo com que o gráfico de barras se aproxime de um gráfico de área Para o exemplo da série qx selecione a opção de gráfico de barra e veja como fica Caso a sua escolha seja para um gráfico de barra há várias opções interessantes Clique duas vezes no gráfico e selecione Graph ElementsBarAreaPie Ali será possível escolher entre gráficos com efeito de cores 3D colocar os respectivos valores em cada barra e diversas outras opções Outra possibilidade de uso dos gráficos no EViews R é combinar diferentes informações Por exemplo vamos ver como fazer um gráfico que mostre simultaneamente a evolução dos dados no tempo e a distribuição dos mesmos Com a série qx aberta vá em ViewGraph selecione LineSymbol e depois na opção Axis borders escolha Histogram Também há a opção de usar a densidade de kernel Note que a série é mostrada considerando as datas no eixo horizontal e as escalas no vertical A distribuição de frequência dos dados é colocada nesse eixo Programação 203 Esse gráfico também pode ser feito a partir da opção abhist no comando line como mostrado a seguir graph gqxlineabhist qx Alternativamente se quisermos especificar ma distribuição de kernel ao invés da distribuição de frequência podemos usar o comando graph gqxlineabk qx Além disso podemos adicionar um texto para identificar nosso gráfico No exemplo abaixo colocamos um título série de dados qx entre aspas com uma fonte de tamanho 12 do tipo ubuntu light Por fim o comando t especifica que o texto é centralizado gqxaddtextpt12faceubuntu lightt Serie de dados qx Algumas opções para gráficos no EViews R somente se tornam disponíveis quando o gráfico é 22 Capítulo 2 Gráficos no EViews R Figura 23 Gráfico de qx com area um objetonomeado ou não Pela linha de comando criamos automaticamente o objeto a exemplo do gráfico gqx criado acima Para tanto na interface gráfica utilizamos a função Freeze Faça um gráfico da série qx e no menu superior poderá ver essa função Uma das funções interessantes do EViews R é marcar períodos específicos de dados com uma área escura muito útil quando estamos avaliando ciclo dos negócios e gostaríamos de sinalizar os períodos em que uma economia estava em recessão Ou então queremos apenas sinalizar um intervalo de tempo para mostrar algum acontecimento Para usar essa função clique com o botão direito do mouse no gráfico e a seguir selecione Add lines shading Note que esse recurso não está disponível para gráficos comuns Como dito anteriormente para habilitar essa função devemos selecionar antes o Freeze A seguir clique com o botão direito do mouse selecione Add lines shading marque Shaded Area deixe em Vertical Bottom axis e mude o período para 2008Q2 até 2009Q1 Caso não esteja satisfeito com esse intervalo clique duas vezes sobre a área cinza e modifique o intervalo Lembre que a opção Freeze tem a desvantagem de não ser atualizada sempre que os dados forem atualizados Podemos contornar isso Com o gráfico aberto dê dois cliques e depois selecione Graph Updating A seguir selecione a opção Automatic e Update when data or the workfile sample changes Isso irá permitir que o gráfico seja atualizado sempre que os dados forem modificados no workfile Programação 204 Uma opção interessante a ser utilizada em gráficos é especificar uma área em um determinado período Isso pode ser feito a partir do comando draw Dentre as opções escolhemos que a área segue as datas na parte horizontal bottom a cor cinza gray e o período compreendido gqxdrawshadebottomcolorgray 2008Q2 2009Q1 Outra opção que pode ser utilizada é mostrar duas séries de dados no mesmo gráfico em especial quando as mesmas possuem escalas diferentes Nesse caso se fizermos esse gráfico com apenas um eixo vertical visualmente podemos ter uma informação de baixa qualidade O EViews R permite que se faça um gráfico com dois eixos cada um com escala diferente 23 Figura 24 Gráfico de qx e px Isso pode ser feito depois de se criar um grupo com as séries que se quer ilustrar Selecione primeiro a série qx Com o botão Ctrl do teclado pressionado selecione a série px A seguir clique com o botão direito do mouse e Open as Group O EViews R irá abrir as duas séries em conjunto uma em cada coluna A seguir clique em ViewGraph e depois em Ok Note que temos uma única escala do lado esquerdo do gráfico Agora clique com o botão direito do mouse vá em options e Axes Scaling e depois Data scaling A seguir do lado direito da tela para cada série selecionada escolha a escala que quer colocála se esquerda ou direita Nesse exemplo escolhemos deixar a série qx no eixo esquerdo e a px no direito Como exercício veja se consegue também inserir a informação da distribuição de freqüência para cada conjunto de dados como mostrado na figura 24 Programação 205 Um gráfico com duas linhas em duas colunas de escalas diferentes pode ser obtido a partir de uma instrução por linha de comando Nesse caso usamos d que permite criar um gráfico com duas colunas Não se esqueça de especificar qual é a segunda série de dados que se quer colocar junto No exemplo abaixo usamos a série px Note que também especificamos a opção de histograma graph gqxlineabhistd qx px Outra forma de usar os recursos gráficos é para identificar características estatísticas dos dados uma possível relação entre diferentes variáveis dentre outras opções Vamos iniciar essa discussão mostrando como são as funções de distribuição Selecione a série qx A seguir vá em ViewGraph e em Graph Type selecione Distribution Do lado direito em Details poderá ver que há diversas opções de gráfico Selecionando Histogram o EViews R irá retornar a distribuição dos dados de acordo com intervalos pré determinados Essa análise pode ser complementada com um gráfico que tem o mesmo formato mas que ao invés de ser uma distribuição de frequência seja uma função de densidade ou então uma função de frequência relativa Essas três opções podem ser selecionadas ao lado da opção Histogram na caixa Options Vá em Scaling e selecione Density O desenho não irá mudar mas note que a escala vertical sim Isso porque no caso da frequência temos no eixo vertical a informação do número de dados encontrados para cada intervalo No caso da densidade estamos falando da área o que também será diferente para o caso de se selecionar Relative frequency Vamos agora adicionar uma estimativa da função de distribuição utilizando uma função de Kernel Com a série de dados qx aberta faça o gráfico de distribuição e a seguir clique em Options 24 Capítulo 2 Gráficos no EViews R Figura 25 Gráfico de Distribuição de Frequência Figura 26 Adicionando uma densidade de Kernel A seguir na caixa Details selecione Options e depois em Add Escolha Kernel density e clique em ok A figura 26 mostra o resultado1 Note que há várias opções para a densidade de kernel A figura 27 a seguir mostra a comparação entre essas diversas funções utilizadas para estimar a função de densidade de kernel Note que há pouca diferença entre os resultados Programação 206 Para fazer um gráfico de distribuição conjugado com uma estimativa via densidade de Kernel podemos usar o seguinte comando qxdistplot hist kernel Ou então se quisermos colocar em um único gráfico as diversas estimativas das funções de 1A ferramenta de determinar a densidade de kernel é uma forma nãoparamétrica utilizada para determinar a densidade de uma função de distribuição de dados aleatórios onde não conhecemos a função de distribuição verdadeira Nesse caso fazemos inferência sobre essa distribuição utilizando estatísticas da amostra que temos Há várias funções de kernel disponíveis no EViews R Epanechnikov uniformetriangular normal biweight triweight e cosinus Se a opção é utilizar a kernel normal então na sua estimativa é utilizada uma função de densidade normal padrão 25 Figura 27 Comparação entre diversas funções de densidade de Kernel Figura 28 Gráfico de Distribuição de Freqüência kernel usamos qxdistplot kernelkux kernelke kernelkr kernelkn kernelkb kernelkt kernelkc Alternativamente com o gráfico aberto clique em ProcMake Distribution Plot Data Como pode ser visto há várias opções de distribuição que podemos investigar Voltando ao nosso exemplo da distribuição de frequência vá em Options depois em Add e podemos ver que há diversas opções além do histograma Já exemplificamos o uso da densidade de kernel Selecione agora Theorical Density e clique em Ok A seguir clique novamente em Theorical distribution e veja que há diversas opções de funções de distribuição Selecione a Normal e escolha os parâmetros Se a escolha for µ 0 e σ 1 então simularemos uma curva normal padrão junto com nosso histograma dos dados como pode ser visto na figura 28 Programação 207 Para inserir um gráfico com distribuição teórica junto com o histograma podemos usar o seguinte comando 26 Capítulo 2 Gráficos no EViews R qxdistplot hist theorydistnormal As opções de construção de gráficos também permite que sejam investigadas características dessa distribuição Como se sabe a função de distribuição cumulativa de dados que possuem uma distribuição normal tem o formato de um S Mais a frente entraremos em detalhe sobre a função cumulativa e sua importância na determinação das probabilidades associadas a valores na construção de intervalos de probabilidade teste de hipótese e uso em modelos como probit Para investigar se os nossos dados possuem essa característica com o gráfico aberto clique com o botão direito do mouse e selecione Options A seguir do lado direito da tela em distribution selecione a opção Empirical CDF que irá retornar os resultados para uma função de ditribuição cumulativa Como pode ser visto pela figura 29a os nossos dados não parecem ter uma distribuição normal Outra forma de verificar isso é via quantis Abra a série qx clique em ViewGraph e na tela Graph Type na parte Specific clique em QuantileQuantile e depois em QQ graph e selecione Theoretical Note que em ambos os resultados mostrados na figura 29 não há evidências de uma distribuição normal Porém para confirmar tal resultado é necessário que se faça um teste específico que será explicado no Capítulo 4 A Figura 29 representa o gráfico da distribuição cumulativa associa a cada valor no eixo horizontal o percentual de vezes que o mesmo se encontra no conjunto de dados que são menores ou iguais a esse valor Dessa forma no eixo vertical fica descrita essa participação percentual também denominada de frequência Note que como estamos falando de distribuição acumulada ao final teremos uma frequência de valor 1 ou seja 100 No gráfico da Figura 29a o valor 70 estaria associado a uma frequência de 033 no eixo vertical Ou seja a probabilidade de encontrarmos um valor no nosso banco de dados que é menor que 70 Px 70 033 é de 33 Além de mostrar essa linha o EViews R também coloca o intervalo de confiança apresentado pela linha pontilhada a Função distribuição cumulativa b Quantis Figura 29 Gráfico da empirical CDF e quantilequantile Programação 208 Para ver o gráfico da empirical CDF usamos o comando abaixo qxdistplot cdf E para fazer o gráfico do quantilequantile usamos 27 qxdistplot quantile Além dos gráficos para uma série de dados apenas podemos ver como se dá a relação entre dois conjuntos de dados uma investigação prévia dos resultados da regressão simples Nesse caso vamos comparar o resultado da série y com a série qx considerando que qxfy Primeiro selecione a variável y e depois qx e clique com o botão direito do mouse abrindo ambas como grupo A ordem das variáveis aqui importa na hora de verificar o resultado final Selecione sempre a variável independente e depois a dependente para esse tipo de gráfico A seguir em ViewGraph selecione o gráfico tipo Scatter e em Fit lines escolha Regression Line Isso irá adicionar uma linha de regressão entre as duas variáveis Depois para mostrar o resultado da linha de regressão clique em Options e em Legend Labels selecione Detailed Por fim em Axis borders selecione Kernel density para termos a informação da distribuição de kernel para cada um dos dados O gráfico resultante irá indicar a relação positiva entre os dois conjuntos de dados e em cada eixo a estimativa da distribuição de kernel para cada um desses conjuntos Também será mostrado o resultado da equação de regressão simples Figura 210 Scatter e linha de regressão entre qx e y Programação 209 Para fazer um gráfico do tipo scatter plot entre duas variáveis inserindo uma curva de regressão e mostrando o resultado da equação de regressão devemos primeiro fazer o grupo com as variáveis de interesse e depois pedir o gráfico Por fim usamos a opção kernel para mostrar a distribuição de kernel nos eixos group g1 y qx g1scatabkernel linefitlegdet Alternativamente podese estar interessado em ver a relação de todas as variáveis em pares Nesse caso selecione todas as séries qx y px pm qm e abra como grupo A seguir em ViewGraph escolha Scatter em Fit lines selecione Regression Line e em Multiple series selecione Lower triangular matrix é uma matriz simétrica O EViews R irá retornar a relação em par de todas as variáveis Programação 2010 Para fazer um gráfico do tipo scatter plot entre diversas variáveis inse 28 Capítulo 2 Gráficos no EViews R Figura 211 Scatter e linha de regressão entre todas as variáveis rindo uma curva de regressão devemos primeiro fazer o grupo com as variáveis de interesse e depois pedir o gráfico Por fim usamos a opção kernel para mostrar a distribuição de kernel nos eixos O comando m especifica que são múltiplos gráficos O comando multl especifica que é uma matriz de gráficos triangular inferior group g1 y qx px pm qm g1scatm multlabkernel linefitlegdet 21 Dados Categóricos O formato de dados conhecido como categóricos é muito comum na investigação em economia Podemos citar por exemplo o uso de microdados da PNADIBGE onde temos informações de indivíduos com suas respectivas características como idade cor sexo situação matrimonial salário e etc Os gráficos que são feitos considerando dados categóricos são diferentes daqueles utilizados em séries de tempo Para ilustrar o uso de gráficos com dados categóricos usamos os dados de exemplo do EViews R gulfcoastwf1 Nesse estão informações sobre demografia de distritos localizados em uma região dos EUA São 234 informações com 117 distritos cada qual com duas informações em dois momentos do tempo Os dados estão organizados no formato UnstructuredUndated São quatro series pop população em 1000 para cada distrito pdiff popprevious e year Como são dois momentos no tempo a organização dos dados segue uma lógica de primeiro mostrar os 117 resultados para o ano de 2005 e depois os 117 resultados para o ano de 2006 Note que são criados identificadores para os indivíduos O Countycode mostra o código de cada municípioCountyname o nome dos 22 Exemplos de programasprg 29 Figura 212 Dados categóricos soma da população por ano municípios que se repetem a partir da observação de número 118 O id mostra o estado associado ao distrito statecode o código do estado e statename o nome do estado Vejamos como seria um gráfico que compara o total da população dos 117 distritos em cada um dos dois anos analisados Abra a série pop e depois vá em ViewGraph e mude para a opção Categorical graph A seguir selecione a opção Bar para fazermos um gráfico de barras e depois em Betails use Sums para termos a soma da população em cada um dos anos Note no detalhe que especificamos na opção Within graph a série year Isso irá fazer com que o programa entenda que há dois momentos no banco de dados 22 Exemplos de programasprg Com os conhecimentos adquiridos neste capítulo somos capazes de criar programas para formatar nossos gráficos de uma mesma maneira padronizando trabalhos de forma fácil Para criar um programa clique em File então New e Program Programação 221 Com o exemplo1wf1 aberto o programa abaixo irá gerar um gráfico de linha na cor preta para cada uma das séries padronizadas adicionando uma linha pontilhada na média zero e redimencinará o tamanho for a y qx px pm qm graph galinen a gasetelem linecolor000 gadrawdashline left rgb172172172 0 gaoptions size62 show ga next Programação 222 Abaixo a sequência de comandos que utilizamos para abrir automatica mente o exemplo1wf1 criar um gráfico com as séries qx e px uma em cada eixo com as respectivas funções de distribuição Além de pintar na cor vermelha qx e px em azul adicionar a barra cinza vertical entre 2008Q2 e 2009Q1 e adicionar o título ao gráfico path runpath 30 Capítulo 2 Gráficos no EViews R cd path load exemplo1wf1 graph gqxlineabhistd qx px gqxsetelem1 linecolor25500 gqxsetelem2 linecolor132112255 gqxdrawshadebottomcolorgray 2008Q2 2009Q1 gqxaddtextpt12faceubuntu lightt Series QX e PX show gqx Com a utilização de subrotinas podemos sofisticar nossos programas A criação destas é feita da mesma forma que um programa FileNewProgram Para chamaruma subrotina dentro de um programa é necessário especificar o caminho exato da mesma Caso o caminho inteiro não seja especificado o programaprg deve estar salvo dentro do mesmo diretório da subrotina a ser excutada Programação 223 A subrotina subrecessoescodaceprg descrita a seguir destaca as reces sões do ciclo de negócios brasileiro datado pelo Comitê de Datação de Ciclos Econômicos CODACE em 30 de Julho de 2015 subroutine recessoescodacegraph g1 g1drawshadebottom 1981Q1 1983Q1 g1drawshadebottom 1987Q3 1988Q4 g1drawshadebottom 1989Q3 1992Q1 g1drawshadebottom 1995Q2 1995Q3 g1drawshadebottom 1998Q1 1999Q1 g1drawshadebottom 2001Q2 2001Q4 g1drawshadebottom 2003Q1 2003Q2 g1drawshadebottom 2008Q4 2009Q1 g1drawshadebottom color255100100 2014Q2 2015Q2 endsub Com o exemplo2wf1 aberto rode o programa progrecessoescodaceprg descrito abaixo Esse utiliza da subrotina subrecessoescodaceprg e por isso ambos devem ser salvos na mesma pasta antes da execução include subrecessoescodaceprg Arquivo com a subroutina CODACE graph gpxlined pib x Cria o gráfico gpx com duas escalas gpxsetelem1 legendPIB Brasil Adiciona legenda da série 1 gpxsetelem2 legendExportações Brasil Adiciona legenda da série 2 gpxsetelem2 linecolor000 Altera cor da linha da série 2 Chama subrotina para marcar as recessoes segundo CODACE call recessoescodacegpx show gpx Apresenta gráfico gpx na tela Com base nos programas apresentados acima inclua a subrotina subrecessoescodaceprg ao programa 222 Destacando as recessões do ciclo de negócios brasileiro datado pelo CODACE nos gráficos de todas as séries do exemplo1wf1 3 Funções de Distribuição O EViews R permite a construção de diversas curvas de distribuição que podem tanto serem discretas quanto contínuas As mais utilizadas em testes de econometria são as funções normal tstudent lognormal F e quiquadrado que aqui iremos ilustrar1 Ao trabalhar com funções de distribuição devemos compreender dois pontos importantes O primeiro é se a variável em questão é categórica ou numérica e o segundo as diferenças que existem entre uma função de probabilidade ou densidade uma distribuição cumulativa e uma distribuição inversa que é a inversa da função cumulativa As variáveis categóricas são fáceis de identificar Ao aplicar um questionário com perguntas que contenham respostas como do tipo sexo nacionalidade e etc obtemos como resposta características e não números Essa classificação será importante para definir que tipo de teste irá usar para avaliar os resultados Por exemplo se perguntarmos o sexo dos entrevistados temos respostas categóricas como homem ou mulher Por outro lado se perguntarmos a idade teremos respostas numéricas Essas podem tanto serem discretas ou seja 25 anos 35 anos ou contínuas expressando a idade inclusive em minutos 13140325 minutos de vida A função de densidade representa a distribuição de probabilidade de uma variável aleatória É como a probabilidade irá se comportar de acordo com os valores que essa variável aleatória irá assumir É comum não conhecermos a função de densidade que irá representar o nosso conjunto de dados Por isso que fazemos testes para ver se os nossos dados possuem uma distribuição que pode ser aproximada por exemplo por uma curva normal uma curva tstudent uma curva F ou qualquer outra Dada a nossa função de densidade toda a área abaixo da curva deverá somar 1 que é a probabilidade da variável assumir qualquer valor NoEViews R supondo uma curva normal a função densidade é utilizada a partir do comando dnorm onde dentro do parênteses podemos colocar os valores do banco de dados2 A função de densidade pode ser determinada fazendo a derivada da função de distribuição cumulativa Em termos matemáticos uma função densidade de x 1Há diversas outras distribuições contínuas em estatística como a Beta de Cauchy Exponencial Gamma Gum bel Logística Uniforme e de Weibull Dentre as distribuições contínuas destaque para a Binomial Geométrica Hipergeométrica Multinomial e de Poisson 2Os códigos das diferentes funções de densidade no EViews são precedidos da letra d Por exemplo dlogistic dpareto dpoisson dtdist dunif 32 A curva tstudent A função de distribuição mais utilizada em testes de hipótese é a tstudent criada por William Sealy Gosset que acabou adotando o nome de student para representar a função É uma distribuição simétrica como a curva normal mas possui caldas mais largas o que a torna mais útil para representar distribuição de dados com valores extremos como é comum não conhecermos a variância da população que estamos analisando não podemos usar a curva normal E é aqui que a curva tstudent se torna interessante e útil Um parâmetro importante na curva tstudent é o vgraus de liberdade Quanto maior for seu valor mais a curva tstudent irá se aproximar da curva normal Mas o que significa os graus de liberdade Suponha que temos um teste de laboratório a ser feito e coletamos uma amostra de 80 informações Nesse caso temos que vn1 ou seja v79 graus de liberdade Por isso que dizemos que quanto maior for o número de graus de liberdade da distribuição tstudent mais ela se aproxima da curva normal Ou seja quanto maior for a amostra n maior será o valor de v Na Figura 38 estão simuladas uma curva normal e várias curvas tstudent com diferentes graus de liberdade com v2 v5 e v10 Note que na medida em que esse parâmetro aumenta a curva tstudent vai se tornando mais próxima da curva normal tornando a diferença entre elas quase imperceptível Suponha que temos uma série de dados Z com distribuição normal padrão e um outro conjunto de dados Q20 com distribuição qquadrado com 20 graus de liberdade veremos essa curva mais a frente Além disso suponha que Z e Q são séries de dados independentes Se dividirmos uma série pela outra teremos um conjunto de dados resultante com uma distribuição tstudent com 20 graus de liberdade Na fórmula abaixo o parâmetro v representa os graus de liberdade tv z Qv v Para montar isso vamos especificar zrnorm e q qchisqrnd20 a seguir use o comando series zq zsqrtq20 e compare com uma curva encontrada a partir de series t rtdist20 Programação 321 Para criar uma variável aleatória que tenha distribuição tstudent usamos o comando abaixo Note que há um parâmetro adicional a ser especificado v que representa os 31 A Curva Normal 33 31 A Curva Normal Essa é uma das mais importantes e também mais usadas funções de distribuição de probabilidade também denominada de curva de Gauss Suponha uma variável aleatória X com n dados Se estamos assumindo que essa variável tem uma distribuição normal podemos determinar cada ponto dessa curva a partir da equação z 1 σ 2π e xµ2 2σ2 31 Onde µ é a média da variável aleatória X σ é o seu respectivo desviopadrão e x o ponto a ser avaliado Um caso particular e muito útil dessa curva é a normal padrão Nesta a média é zero e o desviopadrão 1 Destacase que mesmo que nossa variável X não tenha média igual a zero e desviopadrão 1 podemos converter os mesmos para essas medidas no que se denomina de padronização Como forma de ilustrar o uso de funções de distribuição vamos criar um arquivo com 1 milhão de dados aleatórios Abra o EViews R e clique em Create a New EViews R workfile A seguir escolha uma estrutura tal como mostrado na figura 32a digite 1000000 para especificar o número de observações que iremos usar e dê um nome para o WF workfile e a página A partir de 31 podeos ver que uma curva norma padrão é representada por z 1 2π e x2 2 32 a Distribuição b Com densidade de Karnel Figura 32 Alterando o intervalo Você pode modificar a qualquer momento o tamanho desse banco de dados basta clicar duas vezes em Range e aumentar ou diminuir o intervalo Note que nesse momento não há nenhuma informação ou seja nenhum dado associado Como primeiro passo vamos simular uma variável aleatória que tenha 1 milhão de dados definindo que a mesma tenha uma distribuição normal Para fazer isso vamos usar o comando rnorm como mostrado no box de programação Programação 311 Podemos gerar números aleatórios no EViews R de várias formas Para criar um arquivo do EViews R com dados inteiros no total de 1 milhão ou seja uma serie com 1000000 linhas usamos o comando abaixo no arquivo rndseed 10 series zrnorm 34 Capítulo 3 Funções de Distribuição Dica Muitas vezes é melhor usar o conceito de series do que vector Ao iniciar os comandos descritos no box programação determinamos a série aleatória utilizada com o comando rndseed 10 e criamos uma série denominada z de 1 milhão de dados aleatórios com o comando rnorm Ao repetir esse procedimento sem aplicar rndseed 10 ou utilizando qualquer outro gerador aleatório rndseed 1 por exemplo a sequência de dados irá diferir a cada momento Porém como especificamos que os dados seguem uma distribuição normal padrão a partir de norm sempre que simular um novo conjunto de informações ela terá a mesma distribuição Para confirmar faça um gráfico de distribuição dos nossos dados Abra a série z vá em View Graph em tipo de gráfico selecione distribution e depois clique em ok A seguir adicione uma estimativa da curva a partir da densidade de kernel Dica com a opção gráfico aberta vá em details e crie um gráfico personalizado custom Outra contribuição interessante para visualizar é comparar nosso conjunto de dados com uma distribuição normal teórica ou seja uma curva normal que seja criada a partir da função Com o gráfico aberto clique em options a seguir do lado direito em options novamente Depois em add e theoretical density Vamos escolher primeiro uma curva normal e clique em ok Note que a mesma fica praticamente imperceptível uma vez que a curva teórica se mistura com a curva estimada pela densidade de kernel Figura 33b a Distribuição b Com densidade de Karnel Figura 33 Distribuição Normal Programação 312 Para fazer um gráfico que tenha o histograma de uma série e mais duas curvas teóricas com diferentes valores para a média podemos usar o comando abaixo O termo p11 representa a média1 zdistplot hist theorydistnormalp11 theorydistnormalp12 Para fazer o mesmo gráfico mas com diferentes valores para o desviopadrão especificando três diferentes curvas que é o segundo parâmetro na curva normal usamos zdistplot hist theorydistnormalp21 theorydistnormalp22 theorydistnormalp23 Podemos mudar os parâmetros dessa densidade teórica para que ela fique mais nítida Repita os passos a seguir e em theoretical density especifique média 1 e desvio padrão 1 Note que agora a curva de cor verde se desloca para a direita na Figura 34a Esse procedimento pode ser repetido para diferentes valores de média e desvio padrão e dessa 31 A Curva Normal 35 a b Figura 34 Alterando a média e o desviopadrão forma podemos encontrar diferentes formatos para a curva normal Para exemplificar isso com o gráfico aberto clique em options A seguir em options novamente e do lado esquerdo apague os gráficos histogram e kernel Acrescente mais duas curvas normais teóricas No total teremos três curvas figura 34b Agora deixe todas com média igual a zero e faça para a primeira curva desvio padrão igual a 1 depois para a segunda um desvio padrão igual a 2 e para a terceira curva desvio padrão igual a 3 Clique em ok e você irá gerar o gráfico da Figura 34b Ao especificar diferentes valores para o desviopadrão na curva estamos determinando o que se conhece como curtose Note que para a curva azul no gráfico 34b temos uma maior concentração de dados em torno da média e na curva verde mais achatada os dados são mais espalhados Iremos ver como obter o resultado estatístico da curtose a partir da média e do desvio padrão no próximo capítulo Mas o leitor já pode ir se familiarizando com o formato de uma distribuição de dados com diferentes desvios em torno da média Programação 313 Para avaliar a função de densidade em um ponto qualquer da nossa função de distribuição podemos usar o comando d antes da distribuição que está sendo avaliada Para o caso de uma distribuição normal com média 0 e desviopadrão 1 usamos scalar rdnorm0 Aqui o comando scalar cria a caixa de nome r para receber o valor da distribuição A seguir especificamos d para determinar que queremos a função de densidade seguido de norm que é a curva normal com média 0 e desviopadrão 1 e por fim o valor 0 entre parênteses especifica que estamos avaliando a densidade naquele valor Agora que já sabemos como gerar uma curva normal aleatoriamente vamos testar outras opções Suponha que se queira um conjunto de dados que segue determinados parâmetros por exemplo média igual a 0 e desviopadrão igual a 1 Nesse caso podemos criar a série x usando apenas o comando nrnd Por outro lado se queremos especificar uma média diferente como por exemplo 100 e variância igual a 22 o melhor é usar uma equação Nesse caso criamos a série y e o comando sqr representa a raiz de 22 que seria o desviopadrão A seguir multiplicamos esse por uma série gerada aleatoriamente com distribuição normal Programação 314 Também podemos gerar uma série de dados que segue uma distribuição 36 Capítulo 3 Funções de Distribuição normal com média zero e desviopadrão igual a 1 usando o comando nrnd Series xnrnd Alternativamente para gerar uma série de dados que tem média igual a 100 e variância igual a 22 usase Series y100sqr22nrnd O comando que especifica uma distribuição inversa também pode ser utilizado para gerar uma sequência de números aleatórios porém partindo de probabilidades Vamos escolher a distribuição normal para exemplificar criando uma série de nome t e usando o comando q Programação 315 Por fim podemos gerar dados com distribuição como por exemplo uma normal com média zero e variância igual 1 usando uma função inversa Para tanto usamos o termo q que representa que estamos construindo uma função quantílica ou seja a inversa da função de distribuição cumulativa O termo rnd é especificado para o parâmetro de probabilidade Esse tem que ser entre 0 e 1 Nesse caso ao colocarrnd construímos a curva normal a partir de diversos valores aleatórios para a probabilidade series tqnormrnd O comando q antes da especificação da curva também é útil para determinar o ponto da curva que é associado a uma determinada área Para o exemplo de uma curva normal padrão sabemos que o ponto 0 que representa a média dos dados divide a área em duas partes iguais 50 antes e 50 depois Se usarmos scalar aqnorm05 encontraremos o valor 0 ou seja o ponto a 0 representa 50 da curva acumulada Teste scalar aqnorm0025 que é uma área de 25 O resultado será 1959 ou seja o ponto no qual a área a esquerda de x representa 25 do total O que está dizendo esse comando Primeiro que a função utilizada qnorm irá retornar um valor Sendo assim especificamos a como um escalar exatamente porque irá receber um número Em segundo lugar o valor 05 representa uma probabilidade de 50 que será aplicada à função normal Nesse caso queremos saber qual é o valor na curva normal que irá resultar em uma área de 50 Essa área é especificada como toda a área a esquerda do valor Agora se estamos interessados em saber qual é o valor associado a uma curva normal padrão que irá determinar 95 da área como podemos proceder Usamos scalar a qnorm095 o que irá retornar o valor 1644854 A informação sobre a função inversa é similar ao que obtemos ao usar a função cumulativa Porém enquanto que na função inversa usando o comando q especificamos a área e obtemos o ponto com a função cumulativa a partir de c especificamos o ponto e obtemos a área Exercício 31 Encontre a área entre dois pontos de curva normal padrão que preencha entre 205 desvios padrão Exercício 32 Determine o formato de diferentes curvas normais variando apenas o desvio padrão Para uma média igual a zero use os seguintes valores para os desvios padrão curva 1 13 curva 2 21 curva 3 29 Nesse momento podemos inserir os conceitos de quantis Seja a curva normal padrão imagine que se queira dividir sua área em 4 partes iguais O que queremos obter aqui é o quantil de uma distribuição normal padrão Nesse caso quais seriam os respectivos pontos que permitem ter em 31 A Curva Normal 37 cada quantil 25 da área da curva normal Isso pode facilmente ser obtido usando o comando scalar quantil qnorm como valores 025 05 075 o que irá retornar os pontos 067 0 067 respectivamente Assim entre e 067 há 25 da área de uma curva normal padrão Entre 067 0 há 25 entre 0 067 outros 25 e entre 067 tem 25 Figura 35 Divisão dos quantis da distribuição normal Na estatística denominamos de tercis a divisão da área em 3 quantis de quintis a divisão em 5 quantis de decis a divisão em 10 quantis e de percentis a divisão em 100 quantis Há diversas aplicações para os conceitos de quantis sendo as mais comuns em análises de distribuição de renda e o uso da regressão quantílica Continuando com o nosso exemplo da distribuição normal podemos especificar um gráfico que irá representar essa distribuição Para tanto abra a série z a seguir em viewgraph selecione distribution e depois empirical CDF a b Figura 36 Distribuição Cumulativa com dados normais CDF Como apontado na introdução deste capítulo em estatística a distribuição cumulativa representa a probabilidade de se observar um valor de uma série de dados que não excede determinado valor específico Esse cálculo pode ser representado a partir de Fz Pz r 38 Capítulo 3 Funções de Distribuição onde Fz é a área da curva acumulada até o ponto r ou seja a estatística Fz representa a função cumulativa No exemplo da curva normal temos que 50 dos dados se encontram abaixo da média e 50 acima Como a média é zero para uma curva normal padrão então a probabilidade acumulada até o valor 0 é 50 ou então expresso de outra forma Fz Pz 0 05 Programação 316 Usando como exemplo a nossa curva normal com média 0 e variância unitária sabemos que o valor 0 divide ao meio a função de distribuição colocando 50 da área para cada lado da distribuição Nesse caso isso pode ser verificado a partir de um comando do EViews R que usa o valor para encontrar a área a partir de Scalar rcnorm0 Aqui primeiro criamos um scalar de nome r e que irá receber o valor da função A seguir o comando c usado antes da especificação da curva normal norm serve para determinar que estamos avaliando a função CDF cumulativa Por fim o valor 0 entre parênteses significa que queremos avaliar a probabilidade de um valor não exceder o valor 0 Isso irá retornar o valor 05 Ou seja o total da distribuição acumulada até o valor 0 é de 50 Também podemos determinar a probabilidade associada a um valor mínimo especificado Para tanto usamos a chamada empirical survivor Com a série de dados z aberta vá em viewgraph e depois selecione distribution e em details empirical survivor Note que o gráfico figura 37 representa exatamente o inverso do gráfico da distribuição cumulativa Sendo assim a probabilidade de que um valor seja maior que 5 por exemplo é quase 0 Por outro lado a probabilidade de que um valor seja maior que 0 que é a média dos dados é de 50 Expresso de outra forma como a área total da curva é 100 e a função cumulativa nos fornece a área até certo ponto podemos usar o comando abaixo para especificar a àrea à direita de um ponto Sz 1Fz Pz 5 0 Sz 1Fz Pz 0 05 Figura 37 Empirical Survivor Além de encontrar a área acumulada até um ponto ou acima de um determinado ponto é muito comum querermos saber qual é a área definida entre dois pontos Isso será útil para o entendimento de testes de hipóteses e construção de intervalos de confiança Por exemplo como podemos saber a área de uma curva normal entre z 1 e z 1 No box de programação 317 explicamos como encontrar essa área 31 A Curva Normal 39 Programação 317 Para conseguir determinar a área entre dois pontos da curva podemos combinar duas funções cumulativas Primeiro determinamos a área até o ponto maior e depois retiramos a área até o ponto menor Considerando uma curva normal padrão vamos avaliar a área entre 1 e 1 desviopadrão usando o comando a seguir scalar areacnorm1cnorm1 Esse irá retornar o valor de 0682 que é o mesmo que dizer que 682 dos dados estão entre 1 e 1 Além desse um intervalo muito utilizado é de z 2 e também 3 Esses podem ser encontrados apenas mudando o valor entre parênteses do comando acima No início desse tópico aprendemos a gerar uma série de números aleatórios usando o comando vector e dando o nome z para esse vetor Porém muitas vezes é útil que se tenha uma matriz de números aleatórios ou seja diversos vetores Isso pode ser gerado no EViews R de forma simples usando o comando m e ao invés de criar um scalar especificando matrix Programação 318 A seguir podemos criar uma matriz de números aleatórios que seguem uma distribuição normal usando os comandos mostrados abaixo Para uma matriz de 1000000 linhas e 30 colunas usamos matrix bmnrnd100000030 Até esse ponto ilustramos o uso da curva normal considerando que a média é zero e o desvio padrão 1 porém o mais comum em investigações estatísticas é que os dados possuem média diferente de 0 e desvio padrão diferente de 1 Não se preocupe se seu banco de dados não possuir essa característica isso é fácil de ser contornado a partir da padronização dos dados Nesse caso transformamos a distribuição de nossos dados que podem ter qualquer média e desvio padrão em uma distribuição que tenha média0 e desvio padrão1 Isso é feito facilmente a partir de z x x σ Onde z é o novo valor x é o valor da série original x é a média dos dados e σ é o desvio padrão dos dados Isso pode ser feito no EViews R especificando um comando Programação 319 Suponha que tenhamos um conjunto de dados com média 35 e variância de 35 Podemos gerar esses dados utilizando Series n35sqrt35nrnd Podemos transformar essa distribuição em média 0 e desvio padrão 1 usando o seguinte comando series yxmeanxstdevx Para o nosso exemplo onde a série n tem média 35 e desviopadrão de sqrt35 fazemos Series n1n35sqrt35 Agora que aprendemos os comandos que especificam a densidade a função cumulativa e a inversa de uma curva normal podemos explorar um pouco o comportamento de outras funções que são muito úteis em econometria e testes estatísticos 32 A curva tstudent A função de distribuição mais utilizada em testes de hipótese é a tstudent criada por William Sealy Gosset que acabou adotando o nome de student para representar a função É uma distribuição simétrica como a curva normal mas possui caldas mais largas o que a torna mais útil para representar distribuição de dados com valores extremos como é comum não conhecermos a variância da população que estamos analisando não podemos usar a curva normal E é aqui que a curva tstudent se torna interessante e útil Um parâmetro importante na curva tstudent é o vgraus de liberdade Quanto maior for seu valor mais a curva tstudent irá se aproximar da curva normal Mas o que significa os graus de liberdade Suponha que temos um teste de laboratório a ser feito e coletamos uma amostra de 80 informações Nesse caso temos que vn1 ou seja v79 graus de liberdade Por isso que dizemos que quanto maior for o número de graus de liberdade da distribuição tstudent mais ela se aproxima da curva normal Ou seja quanto maior for a amostra n maior será o valor de v Na Figura 38 estão simuladas uma curva normal e várias curvas tstudent com diferentes graus de liberdade com v2 v5 e v10 Note que na medida em que esse parâmetro aumenta a curva tstudent vai se tornando mais próxima da curva normal tornando a diferença entre elas quase imperceptível Suponha que temos uma série de dados Z com distribuição normal padrão e um outro conjunto de dados Q20 com distribuição qquadrado com 20 graus de liberdade veremos essa curva mais a frente Além disso suponha que Z e Q são séries de dados independentes Se dividirmos uma série pela outra teremos um conjunto de dados resultante com uma distribuição tstudent com 20 graus de liberdade Na fórmula abaixo o parâmetro v representa os graus de liberdade tv z Qv v Para montar isso vamos especificar zrnorm e q qchisqrnd20 a seguir use o comando series zq zsqrtq20 e compare com uma curva encontrada a partir de series t rtdist20 Programação 321 Para criar uma variável aleatória que tenha distribuição tstudent usamos o comando abaixo Note que há um parâmetro adicional a ser especificado v que representa os 32 A curva tstudent 41 graus de liberdade da curva tstudent series zrtdistv Tal qual na curva normal também podemos usar aqui o comando que especifica uma distribuição inversa para gerar uma sequência de números aleatórios Além de ser útil para gerar uma curva qualquer o comando q é útil para determinar o ponto da curva que é associado a uma determinada área Para o exemplo de uma distribuição tstudent a média dos dados divide a área em duas partes iguais 50 antes e 50 depois Se usarmos o termo scalar aqtdist0550 encontraremos o valor 0 Note que aqui não faz diferença os graus de liberdade a média sempre irá dividir a área ao meio Teste scalar aqtdist002550 que é uma área de 25 O resultado será 2008 ou seja o ponto no qual a área a esquerda representa 25 do total para uma curva tstudent com 50 graus de liberdade Esse resultado para uma curva normal seria 1959 comprovando que a curva tstudent é útil para representar dados com valores extremos Programação 322 Para gerar uma distribuição de dadoststudent também podemos recorrer a função inversa usando o termo q a inversa da função de distribuição cumulativa Como esse comando usa uma área para determinar os pontos ao usar o comando rnd teremos valores entre 0 e 1 exatamente o que precisamos para especificar as áreas da distribuição Aqui usamos um exemplo com 50 graus de liberdade series tqtdistrnd50 Lembrese que sempre que quiser encontrar um ponto que esteja associado a uma área da curva tstudent usamos o comando q Análogo a esse comando temos a distribuição cumulativa que representa a probabilidade de se observar um valor de uma série de dados que não excede determinado valor específico Tal como fizemos na curva normal esse cálculo pode ser representado a partir de Fz Pz r onde Fz é a área da curva acumulada até o ponto z Na curva tstudent temos que 50 dos dados se encontram abaixo da média e 50 acima Com a média zero então a probabilidade acumulada até o valor 0 é 50 ou então expresso de outra forma Fz Pz 0 05 Programação 323 Para encontrar a área acumulada até um determinado ponto na curva t student podemos usar o comando c Nesse caso não se esqueça de também fornecer os graus de liberdade Para uma curva t50 usamos Scalar zctdist050 O resultado aqui será 05 mostrando que toda a área da curva acumulada até o ponto 0 é de 50 Note que isso independe de colocarmos o valor dos graus de liberdade em 100 ou 200 Isso porque estamos avaliando a curva em seu ponto médio Agora se avaliarmos a curva em outro ponto os graus de liberdade produzirão resultados diferentes Note que a informação sobre a função inversa dado por q é similar ao que obtemos ao usar a função cumulativa Porém enquanto que na função inversa usando o comandoq e especificamos Programação 324 Para avaliar a função de densidade de uma curva tstudent usamos scalar rtdistxv Aqui o comando scalar cria a caixa de nome r para receber o valor da distribuição A seguir especificamos d para determinar que queremos a função de densidade seguido do nome da distribuição tdist Por fim escolhemos o valor do ponto na distribuição x e os graus de liberdade em v Programação 325 Para encontrar a área entre dois pontos na curva tstudent combinamos duas funções cumulativas Suponha que se queira avaliar entre 1 e 1 Scalar areactdist150ctdist150 O resultado será 6778 o que é menor que os 682 da curva normal Agora vejamos no extremo da curva quando consideramos entre 3 e 3 O resultado para a tstudent será 9957 enquanto que para a curva normal será de 9973 Exercicio 33 Encontre a área entre dois pontos 250 e 250 para uma curva tstudent com 50 graus de liberdade Exercicio 34 Encontre a área entre 3 e 3 para diferentes curvas tstudent usando Curva 1 15 graus de liberdade Curva 2 30 graus de liberdade Curva 3 60 graus de liberdade 33 A Curva QuiQuadrado A curva quiquadrado χ2v possui um formato diferente da normal Enquanto aquela tinha uma distribuição bicaudal essa é unicaudal Isso é interessante pois vários testes a serem feitos posteriormente irão considerar esse tipo de análise 4 além de ser útil em diversas outras aplicações principalmente em finanças 5 A sua função densidade é dada por fz12v2Γv2 xv21ex2 Onde v ℕ são os graus de liberdade x é uma variável aleatória no intervalo 0 e Γ é uma função Gamma 6 Assim podemos construir a curva a partir da definição do valor de v e de 33 A Curva QuiQuadrado 43 posse da variável aleatória x encontrar seus diversos resultados Por exemplo para uma função com 2 graus de liberdade v 2 teremos fz e x 2 2Γ1 Um ponto a destacar aqui é que quanto maior forem os graus de liberdade da quiquadrado mais sua distribuição vai se aproximando da normal No caso do uso do teste quiquadrado também há uma particularidade a considerar De uma forma geral esse teste é utilizado para identificar a existência ou não de diferenças em variáveis categóricas como por exemplo religião sexo raça grupos de idade ocorrência de evento e etc Seu uso pode se dar para dois tipos de situações i para comparar se o valor observado é diferente do valor esperado ou então se uma distribuição observada é diferente de uma esperada fazendo comparação de frequências ii identificar se duas variáveis aleatórias são independentes usando tabelas de contingências Em ambas a aplicação poderá ver que o teste não usará as estatísticas de média e desvio padrão ou seja é um teste não paramétrico Nesse caso o que iremos fazer é comparar proporções Como regra ao definir as hipóteses a serem testadas seguimos que a hipótese nula é aquela onde as frequências observadas não são diferentes das frequências esperadas e por consequência a hipótese alternativa é onde as frequências são diferentes Exemplo 31 Suponha que a razão de peso entre os estudantes homens e mulheres na universidade seja de 21 ou seja os homens tem o dobro do peso das mulheres Porém essa relação tem sido de 11 em turmas de um curso específico por vários semestres Essa relação seria estatisticamente diferente da esperada O teste quiquadrado é útil nesse caso Como forma de ilustrar como o teste quiquadrado é utilizado vamos usar um exemplo simples que é descobrir se uma moeda é honesta Esse teste também pode ser chamado de teste de Goodness of fit Nesse caso o nosso resultado esperado é que em 50 das vezes se tenha cara e 50 coroa Agora vamos ao experimento lançando uma moeda 200 vezes e anotando os resultados Suponha que em 108 vezes se observe cara e 92 vezes coroa Esse resultado estaria dentro do esperado O primeiro passo aqui é determinar a hipótese nula que para nós é ter uma distribuição igual entre cara e coroa ou seja em 200 tentativas esperamos que 100 dessas seja cara A seguir podemos montar a seguinte tabela pra encontrar o valor da estatística quiquadrado Cara Coroa Total Observado 108 92 200 Esperado 100 100 200 Diferença OE 8 8 0 OE2 64 64 128 χ2 OE2E 064 064 128 Tabela 31 Testando se uma moeda é honesta 44 Capítulo 3 Funções de Distribuição Figura 39 Como pode ser visto temos duas categorias cara e coroa Nesse caso a estatística qui quadrado é dada pela soma da diferença das duas possibilidades em relação ao valor esperado ou seja χ2 128 O passo seguinte é determinar a probabilidade associada a esse valor Mas antes de fazer isso vamos entender como é a distribuição quiquadrado No EViews R essa função de distribuição é encontrada a partir do comando chisq Com o arquivo de antes aberto vamos gerar uma distribuição aleatória com 1000000 de dados usando o comando qchisq Um ponto importante a destacar é que o teste χ2 só pode ser aplicado a números não sendo aplicável a proporções percentuais médias e etc Programação 331 A curva quiquadrado tem um formato diferente Usando o mesmo arquivo de antes com 1000000 de dados vamos construir uma curva quiquadrado com 1 grau de liberdade a partir do comando q que fornece a inversa da curva rndseed 2 series qqchisqrnd1 Aqui o termo rnd é utilizado para gerar números aleatórios entre 0 e 1 e nesse caso representa diferentes valores para a probabilidade Note que a probabilidade deve ficar entre 0 e 1 Um exercício interessante é identificar o valor que representa determinado percentual de uma área Por exemplo determine o valor que representa 96 de uma amostra com distribuição qui quadrado e 10 graus de liberdadeχ2 10 Para encontrar esse valor denomine o mesmo de x e podemos usar o comando scalar xqchisq09610 que irá retornar x1902074 Sendo assim para os parâmetros especificados devemos esperar observar valores maiores que 1902 em apenas 4 das vezes Após gerar os números aleatórios que irão seguir uma distribuição quiquadrado faça um gráfico combinando um histograma e uma densidade de kernel Para tanto abra a série q vá em viewgraph selecione distribution e depois do lado esquerdo após escolher histogram vá em options e escolha kernel density conforme a Figura 39 Note na Figura 310 que essa distribuição é unicaudal Como forma de mostrar as mudanças na curva de acordo com os graus de liberdade estimamos mais duas curvas quiquadrado uma com 2 graus de liberdade e outra com 5 33 A Curva QuiQuadrado 45 a 1 grau de liberdade b Diferentes graus de liberdade Figura 310 Curva ChiQuadrado Agora que conhecemos como é a distribuição quiquadrado podemos retornar ao nosso exemplo das moedas e descobrir a probabilidade associada ao nosso teste Pelos cálculos obtemos χ2 128 Esse é o valor que tem que ser colocado na curva para avaliar a probabilidade associada Assim o total da curva entre 0 e 128 pode ser encontrado fazendo uso da opção de distribuição cumulativa CDF até o ponto 128 Programação 332 Para encontrar a área da curva entre o valor 0 e um ponto especificado podemos usar o comando cchisq Para o nosso exemplo temos o valor de 128 com 1 grau de liberdade Sendo assim usamos scalar qqcchisq1281 Fazendo isso encontramos o valor de 07421 que representa 7421 da curva entre 0 e 128 Ou seja há uma probabilidade de 74 de nossa moeda ser viciada O famoso pvalor associado a esse teste que irá determinar se aceitamos ou rejeitamos a hipótese nula é obtido a partir de 1 07421 02579 Ou seja pvalor 025 e dependendo do nosso critério de significância podemos aceitar ou rejeitar a hipótese nula Com um critério de 005 ou 5 então aceitamos a hipótese nula Recordese que a nossa hipótese nula é de que o valor observado fosse igual ao esperado ou seja que a moeda era honesta Portanto podemos aceitar essa hipótese Aqui deve surgir a dúvida porque 1 grau de liberdade No nosso exemplo estamos trabalhando com duas classes cara e coroa Nesse teste sempre subtraímos o valor do total de classes de 1 portanto n1 21 e nesse caso temos 1 grau de liberdade Exemplo 32 Vejamos outra aplicação de um teste quiquadrado do tipo Goodness of fit onde comparamos frequências Nesse caso vamos ver se um dado é honesto Como se sabe há a possibilidade de sair seis diferentes números e nesse caso a expectativa é que cada um tenha uma probabilidade igual Ou seja a probabilidade de sair o número 1 é de 16 a mesma para sair o número 4 e assim por diante Definimos as nossas hipóteses de teste como H0 o dado é honesto as proporções são iguais H1 o dado não é honesto as proporções são diferentes Agora vamos lançar um dado 120 vezes e anotar os resultados observados junto com o esperado em uma tabela como mostrado abaixo Note que o resultado para alguns números supera em muito o valor que se esperava Um indício de que o dado pode ser viciado Para verificar isso podemos usar o teste quiquadrado comparando o valor observado com o esperado a partir da fórmula 46 Capítulo 3 Funções de Distribuição Resultado Esperado OE2 E 1 30 20 5 2 12 20 32 3 27 20 245 4 18 20 020 5 17 20 045 6 16 20 080 Total 120 120 1210 Tabela 32 Testando se um dado é honesto χ2 OE2 E que é aplicada para cada um dos resultados Ao final somamos todos os seis Essa é a estatística quiquadrado Para o nosso exemplo χ2 121 Para testar se esse valor corresponde ou não a aceitar ou rejeitar a hipótese nula precisamos ter o número de graus de liberdade Temos um procedimento com seis termos que foram utilizados para calcular a estatística ou seja nosso número de linhas Sabemos que o número de graus de liberdade desse tipo de teste é dado por esse valor menos 1 No de linhas1 Sendo assim nosso experimento tem 5 graus de liberdade χ2 5 1210 A seguir devemos encontrar o pvalor Esse pode ser dado no EViews R usando o comando scalar qq1cchisq1215 e que retorna como resultado 00334 ou então 334 Com esse resultado não é possível aceitar a hipótese nula caso o nível de significância seja de 5 O que nos leva a crer que existe uma chance pequena do dado ser honesto Por outro lado se o nosso nível de significância for de 1 para o teste então pelo resultado do pvalor0034 aceitamos a hipótese nula de que o dado é honesto Vimos acima duas aplicações do teste quiquadrado para o que se conhece como Goodness of fit Esses testes são aplicados quando temos uma situação onde é possível determinar um valor esperado ou seja a nossa hipótese é baseada em uma teoria Outra possibilidade de aplicação desse teste é para exercícios do tipo teste de independência ou então como é conhecido via tabela de contingência Nesse caso queremos ver se duas variáveis são independentes e para tanto também fazemos uso do valor esperado Mas nesse tipo de teste não conhecemos o valor esperado e para tanto devemos construir o mesmo utilizando os dados observados Como regra de formulação das hipóteses a serem testadas definimos como hipótese nula o fato de que não há associação entre os grupos ou distribuições que estão sendo testadas ou seja as variáveis são independentes Dessa forma na hipótese alternativa teremos que as variáveis são dependentes ou seja há relação entre elas Vejamos um exemplo de teste de independência usando a função de distribuição quiquadrado Exemplo 33 Teste de Independência Considere que se tenha um experimento e que se queira verificar se há relação de dependência do resultado encontrado entre as diferentes categorias Nesse caso suponha que em determinado ano tenhase verificado a incidência de três diferentes tipos de pragas onde praga é uma variável em várias fazendas distribuídas em três estados onde estado também é uma variável Podemos afirmar que existe uma relação entre uma determinada praga e a localização da fazenda Ou seja é possível afirmar que quando há um problema em uma região podemos esperar que o mesmo irá ocorrer em outra região Nesse caso queremos ver se 33 A Curva QuiQuadrado 47 Estado 1 Estado 2 Estado 3 Total Praga 1 54 45 87 186 Praga 2 6 76 89 171 Praga 3 87 34 32 153 Total 147 155 208 510 Tabela 33 Incidência de praga em fazendas em três estados Tipo 1 Tipo 2 Tipo 3 Total Categoria 1 a b c abc Categoria 2 d e f def Categoria 3 g h i ghi Total adg beh cfi N Tabela 34 Tabela de Contingência existe uma relação entre duas variáveis praga e estado Como primeiro passo formulamos a hipótese nula e alternativa H0 Não há relação entre região e diferentes tipos de praga variáveis são independentes H1 Há relação entre região e diferentes tipos de praga variáveis são dependentes Como dito acima a hipótese nula se refere ao caso de independência entre as duas variáveis A seguir fomos literalmente a campo e pesquisamos nas três regiões as fazendas que apresentaram cada uma dessas pragas No total foram 510 fazendas que apresentaram problemas e que foram distribuídas de acordo com a tabela Note que temos os resultados observados e não temos os valores esperados Dessa forma precisamos determinar qual é o valor esperado para esse tipo de teste Como regra geral para um teste de independência podemos determinar os valores esperados para cada uma das células usando uma formula específica No caso de uma matriz 3x3 no geral temos Dessa forma para encontrar o valor esperado da célula i devemos usar ghic f i N Onde N é dado por abcd e f ghi Usando esse procedimento podemos produzir a matriz de valores esperados dos nossos resultados Depois de encontrar esses valores esperados o procedimento seguinte é encontrar a estatística quiquadrado que irá seguir exatamente os passos dados anteriormente quando do cálculo da moeda honesta Primeiro encontrase a diferença entre cada valor observado e o esperado A seguir elevase ao quadrado e divide pelo valor esperado da célula para ao final somar todos os resultados Esse último valor é a estatística quiquadrado Esses resultados são mostrados na tabela a seguir Estado 1 Estado 2 Estado 3 Praga 1 5361 5652 7585 Praga 2 4928 5197 6974 Praga 3 4410 4650 6240 Tabela 35 Valores observados 48 Capítulo 3 Funções de Distribuição Estado 1 Estado 2 Estado 3 Total Praga 1 00028 235 163 399 Praga 2 3801 1111 531 5444 Praga 3 4173 336 1481 5990 Total 1682 1682 2176 11834 Tabela 36 Estatística QuiQuadrado Vitória Não ganhou total Casa 103 76 179 Fora 42 137 179 Total 145 213 358 Tabela 37 Resultados de jogos do Grêmio onde o resultado de cada célula é dado por OE2 E Observe que χ2 11834 Agora falta determinar o número de graus de liberdade A regra para testes do tipo tabela de contingência é usar No de colunas 1No de linhas 1 3131 4 O que irá nos gerar um total de 4 graus de liberdade Portanto o nosso teste envolve uma estatística da forma χ2 4 11834 Usando a mesma função de antes para encontrar o pvalor no EViews R ou seja scalar qq1cchisq118344 teremos pvalor0000 Para um critério de 5 podemos concluir pela rejeição de H0 Ou seja não é possível aceitar H0 e portanto podemos afirmar que existe uma relação entre os três diferentes estados e as pragas que foram observadas em determinado ano Exemplo 34 Muito se escuta falar que o fator jogar em casa costuma ser determinante para uma equipe de futebol no decorrer de um campeonato Para comprovar esse fato vamos testar essa hipótese para a equipe do Grêmio durante o campeonato brasileiro de 2003 a 2012 A tabela a seguir traz a divisão dos resultados separados entre jogos em casa e fora e resultados de vitória ou não vitória que pode tanto ser derrota quanto empate Tal como estruturado as nossas hipóteses são assim dadas H0 O fator joga em casa não faz diferença variáveis são independentes H1 Jogar em casa faz diferença variáveis são dependentes Como temos uma tabela 2x2 para encontrar o valor do teste quiquadrado não é necessário encontrar a diferença entre cada valor observado e esperado podemos usar de forma direta a fórmula χ2 1 ad bc2abcd abcdacbd Como temos uma tabela 2x2 há 1 grau de liberdade Dessa forma χ2 1 4313 Usamos o comando scalar qq1cchisq43131 para encontrar o pvalor no EViews R encontramos qq00000 Ou seja o pvalor é 000 Nesse caso podemos optar pela rejeição da hipótese nula se estivermos satisfeitos com um nível de significância de 5 ou até um nível de significância menor Sendo assim concluise que pelo menos para o campeonato brasileiro entre 2003 e 2012 para a equipe do Grêmio jogar em casa ou não foi determinante Apesar de termos comentado sobre o uso de tabelas de contingência com o número de linhas igual ao número de colunas é frequente termos tabelas de contingência que não são quadradas Suponha um número de linhas r e de colunas c De forma geral a fórmula para calcular a frequência esperada para cada célula é dada por E da lina r da lina cN onde N é o tamanho da amostra O último ponto de discussão sobre a aplicação do teste quiquadrado é sobre amostras e valores esperados pequenos Em algumas situações é comum nos depararmos com um experimento onde o número de resultados é menor do que 40 Nesse caso claramente teremos um problema no teste Além disso também podemos ter uma situação onde o valor esperado de um evento uma das células da tabela encontrada tem um resultado menor do que 5 Apesar de ser um problema mesmo assim podemos fazer o teste basta que se faça uma correção que na literatura de estatística é denominada de Correção de Yates E isso é simples Quando for calcular o valor esperado de cada uma das células ao invés de utilizar a fórmula χ2 O E2E Usamos a seguinte expressão χ2 OE052E 34 Curva F Outra função de distribuição muito útil é a F comumente conhecida como distribuição de Fisher ou distribuição de Snedecor onde seu uso mais comum é na análise de variância também conhecido como teste ANOVA A distribuição F é uma distribuição encontrada a partir da razão da variância de duas populações independentes Nesse caso como estamos com duas populações ou amostras temos dois graus de liberdade Por isso que a função F aparece sempre com Fv1v2 onde v1 são os graus de liberdade dados pelo número de amostras menos 1 e v2 é o número de tipos de medidas A função densidade de probabilidade de uma variável aleatória que tem distribuição F comv2 e v1 graus de liberdade é dada por Fx Γv1 v22 Γv12Γv22 v1v2v12 xv121 v1v2 x 1mn2 onde o valor de x é dado no intervalo x 0 ou seja assume valores positivos e Γ é uma função gamma De forma geral a curva F mede a razão entre duas distribuições quiquadrado que sejam independentes Dentre as suas principais propriedades temos que ela é assimétrica à direita ou seja seus valores sempre serão positivos Dentre seus principais usos podemos destacar o teste para identificar se duas amostras independentes foram geradas por uma população com distribuição normal com a mesma variância e também se duas amostras independentes possuem mesma variância Como hipótese principal tem o fato de que a distribuição da população no qual se está gerando a amostra é normal e que as duas populações são independentes Vejamos como podemos gerar 1000000 números aleatórios que descrevem uma distribuição F Nesse caso usamos no EViews o comando qfdist onde o termo q representa a distribuição inversa usada para gerar a curva procurada 50 Capítulo 3 Funções de Distribuição Programação 341 A curva F também é muito útil para testes em estatística e econometria Para simular essa curva no EViews R podemos usar os comandos a seguir rndseed 10 series fqfdistrnd1010 Para essa função temos 3 parâmetros a determinar dentro dos parênteses O primeiro é a probabilidade associada Como queremos 1000000 de números usamos o termo rnd que é utilizado para gerar números aleatórios entre 0 e 1 e nesse caso representa diferentes valores para a probabilidade A seguir temos o número de graus de liberdade do numerador e o número de graus de liberdade do denominador O mesmo gráfico pode ser gerado a partir de Series frfdist1010 Note que ao especificar valores pequenos para os graus de liberdade temos uma curva mais assimétrica conforme a figura 311a Na medida em que vamos aumentando os graus de liberdade a curva F vai tendo outro formato até que ao ter um número grande de graus de liberdade irá se aproximar da distribuição normal conforme a figura 311b a Curva F1010 b Curva F10000001000000 Figura 311 Curva ChiQuadrado Da mesma forma que para as demais curvas aqui avaliadas para se encontrar a área abaixo da curva F podemos usar a função de distribuição cumulativa CDF Por exemplo para uma curva F5010 qual seria a área acumulada até o valor 2 Programação 342 Para encontrar a área da curva acumulada até determinado valor usamos a função abaixo scalar f4cfdistxv1v2 Onde x é o valor a determinar o ponto na curva v1 são os graus de liberdade do numerador e v2 os graus de liberdade do denominador Para o nosso exemplo usamos series f4cfdist25010 35 Distribuição de Poisson 51 Que irá resultar em 08818 ou seja 8818 da área 35 Distribuição de Poisson Se estamos diante da possibilidade de ocorrência de um número muito grande de eventos e que a probabilidade de ocorrência de um desses eventos seja bem pequena então podemos usar a distribuição de Poisson Seria como tentar medir a possibilidade de ocorrência de um evento raro como um atropelamento em uma determinada rua de baixo movimento o nascimento de quadrigêmeos dentre outros A distribuição de Poisson é uma distribuição de probabilidade discreta Para medir essa chance de ocorrência de um evento fazemos uso de três parâmetros O primeiro que se refere ao espaço de medida pode tanto ser hora minuto segundo dias espaço área volume peso ou qualquer outro campo contínuo Na fórmula da distribuição é a variável t Esse sempre vem acompanhado do parâmetro λ que é utilizado para medir a frequência de ocorrência do evento O último parâmetro x é utilizado para definir a possibilidade do número de ocorrências A fórmula do teste de Poisson é dada por Px eλtλtx x 35 Imagine que se queira medir a probabilidade de que uma pessoa entre no restaurante a qualquer momento Sabemos que o fluxo de clientes é medido por hora e que esse é de 3 por hora Sendo assim t 1 hora e λ 3 Qual seria a probabilidade de não chegar nenhum cliente em 1 hora P0 e330 0 0049 Assim a probabilidade de que em 1 hora não chegue nenhum cliente é de 49 Outra pergunta interessante seria se ao invés de querer saber o número exato trabalharmos com um valor mínimo Sendo assim qual é a probabilidade de que chegue pelo menos um cliente Nesse caso podemos estimar via diferença de não chegar nenhum com o total da curva O total é de 100 e então P 1 1P0 10049 09502 Ou seja a probabilidade de que chegue pelo menos um cliente é de 9502 Programação 351 Para aplicar o teste de Poisson no EViews R podemos usar a fórmula da distribuição cumulativa CDF Nesse caso é necessário especificar dois parâmetros m e x Com m λt e x tal como definido anteriormente scalar pcpoissonxm Para o nosso exemplo acima usamos para medir a probabilidade de não chegar nenhum cliente scalar pcpoisson03 Exercício 35 Suponha que em uma esquina ocorram em média 4 acidentes por semana Encontre a probabilidade de que em qualquer semana ocorram 6 acidentes Depois qual é a probabilidade de ocorrência de pelo menos 2 acidentes por semana Dica na primeira pergunta x 6 λ 4 t 1 Na segunda pergunta P 2 1P1 x 1 λ 4 t 1 Vimos nesse capítulo as curvas de distribuição e aplicação de testes sejam esses paramétricos ou não paramétricos Nesse ponto é importante entender a diferença entre esses dois tipos de 52 Capítulo 3 Funções de Distribuição testes Quando fazemos uso de estatísticas dos dados da amostra e da distribuição dos mesmos em algum teste como por exemplo o teste t teste F dentre outros dizemos que o teste em questão é paramétrico Ou então denominados de testes clássicos Nesse tipo de teste assumimos que a distribuição dos dados é conhecida Porém há também os testes não paramétricos onde não é feita nenhuma hipótese sobre o tipo de distribuição de probabilidade dos dados que estamos usando Ou seja nesse tipo de teste dizemos que estamos livres de especificar o tipo de distribuição Portanto usamos os testes não paramétricos quando desconhecemos essa distribuição ou os dados não satisfazem às suposições que são assumidas pelas técnicas tradicionais 36 Exercícios Exercício 36 Sua namorada te liga em média 2 vezes por dia considerando 24 horas Qual é a probabilidade de ela não te ligar em 1 dia Qual a probabilidade dela te ligar pelo menos 1 vez por dia Exercício 37 Probabilidade Considerando uma curva normal padronizada encontre a proba bilidade de se ter um valor tal como a Pz 0 z 118 3010 b Pz 0 2 9772 c Pz 34 z 9996 d Pz 245 z 071 Exercício 38 Probabilidade Supondo que a renda da população do Brasil r é de R 6200 por mês com um desvio padrão de R 954 Imagine que a distribuição dessa renda seja normal Responda aos itens a seguir Dica note que não temos uma distribuição normal padrão Padronize os dados primeiro usando z r r σ a Pr 3200 Pz rr σ 008 b Pr 9000 016 c P3560 r 6340 5555 Exercício 39 Considerando uma tstudent encontre a probabilidade de se ter um valor tal como a use 20 graus de liberdade Pz 0 z 118 3740 b use 30 graus de liberdade Pz 0 z 118 3763 c use 300 graus de liberdade Pz 0 z 118 3805 d use 20 graus de liberdade Pz z 2 9703 e use 30 graus de liberdade Pz z 2 9726 f use 20 graus de liberdade Pz 34 z 9985 g use 30 graus de liberdade Pz 34 z 9990 h use 20 graus de liberdade Pz 245 z 011 i use 30 graus de liberdade Pz 245 z 010 36 Exercícios 53 Exercício 310 Teste de independência Em uma pesquisa foram entrevistados 340 alunos de uma escola Os entrevistados separados por faixa de idade deveriam apontar a preferência por uma cor Sendo assim estamos interessados em testar se existe uma relação entre idade e preferência por cor Use como critério de significância 5 Escolha a hipótese nula H0 Encontre a estatística quiquadrado χ2 Encontre o pvalor Conclua Idade anos Branco Verde Preto Total 1012 35 76 65 176 1316 65 54 45 164 Total 100 130 110 340 Exercício 311 Teste de independência Nas eleições para prefeito de 2012 tivemos vários votos nulos e brancos Esses podem ser interpretados como uma forma de protesto Com dados das eleições de 2012 no 1o turno para prefeito em todo o Brasil separamos os mesmos entre capital e interior A pergunta é é possível afirmar que os eleitores das capitais estão mais revoltados do que os eleitores do interior Votou Branco Nulo Total Capital 22632144 2842987 25475131 Interior 80624103 9708280 90332383 Total 103256247 12551267 115807514 Exercício 312 Teste de independência Suponha que se queira testar se a faixa etária real mente faz diferença em relação a forma de dirigir Nesse caso com dados de jovens adultos e idosos separados entre números de acidentes e sem acidentes em um determinado ano teste se há relação entre idade e condução ao volante Acidente Sem acidente Total Jovens 25 45 70 Adultos 15 25 40 Idosos 10 30 40 Total 50 100 150 Exercício 313 Teste de independência Na tabela abaixo foram coletados dados sobre casa mentos no Brasil no ano de 2011 Naquele ano ocorreram pouco mais de 1 milhão de casamentos divididos no estado civil do homem e da mulher na data do casamento Por exemplo 818300 casamentos ocorreram entre homens e mulheres solteiros 54 Capítulo 3 Funções de Distribuição HomemMulher Solteira Viúva Divorciada Total Solteiro 8183 5876 50696 874872 Viúvo 8557 2925 5297 16779 Divorciado 88805 4806 38221 131832 Total 915662 13607 94214 1023483 37 Sites úteis wwwstatisticscom wwwportalactioncombr httpstatlectcom httpstatunipgitiasc 4 Estatísticas testes de hipótese e ANOVA Fazer uma avaliação prévia de como um conjunto de dados se comporta é um dos procedimentos mais comuns em estatística e econometria e deve ser feito antes de qualquer outra ação pois irá permitir ter informações importantes sobre os passos a serem dados posteriormente Nesse caso há diversas formas de se avaliar os dados e que depende de como os mesmos são compostos e que são classificados tanto em estatísticas descritivas como de inferência No primeiro caso há estatísticas que podem ser utilizadas para qualquer formato de conjunto de dados como por exemplo a média a moda e a mediana referidas como medidas de tendência central Por outro lado quantis variância e o desviopadrão por exemplo são classificadas como medidas de dispersão Como o nome diz no procedimento de estatística descritiva o que temos é apenas uma descrição do comportamento dos dados No geral os resultados gerados pela estatística descritiva aparecem no formato de gráficos ou de tabelas A inferência estatística envolve o conceito de amostragem O mais comum em estatística e econometria é termos um conjunto de dados que representa uma amostra da população uma vez que é muito difícil ter a informação da população Nesse caso estamos assumindo que a nossa amostra possa representar de maneira fiel o comportamento da população Porém nem sempre isso é verdade o que acaba por resultar em erros de medida Nesse caso trabalhamos com diversos parâmetros como média desvio padrão e etc mas os mesmos são estimados e são feitos testes de hipótese para confirmar a consistência dos mesmos Em resumo essa é a ideia da inferência estatística Portanto enquanto que na estatística descritiva estamos apenas preocupados com a descrição dos dados na inferência estatística estamos preocupados com a consistência dos mesmos Como exemplo vamos usar a série z gerada na seção 31 Recordese que a mesma foi gerada para ter uma distribuição normal com média zero e variância unitária A seguir vá em viewdescriptive statistics tests e poderá ver que há diversas opções para se aplicar às séries de dados conforme Figura 41 A seguir mostraremos como interpretar cada uma dessas 56 Capítulo 4 Estatísticas testes de hipótese e ANOVA Figura 41 Testes e estatística descritiva 41 Histograma e Estatísticas Selecionando a alternativa de Histogram and Stats o EViews R irá retornar um resumo do que podemos entender como estatística descritiva conforme Figura 43 Para o exemplo da série z podemos ver que os dados são bem distribuídos em torno da média como mostra o gráfico à esquerda que é conhecido como histograma A seguir do lado direito há diferentes estatísticas que são reportadas As duas primeiras são medidas de tendência central como a média que tal como esperado é próxima de zero E a seguir está a mediana que representa o ponto onde a função de distribuição é dividida exatamente ao meio Para o nosso exemplo ela também é próxima de zero Essa é uma característica de um conjunto de dados que tem uma distribuição normal padrão onde a média é zero Depois são reportados o valor máximo e o valor mínimo do nosso conjunto de dados Note que ambos são muito próximos Isso ocorre pois geramos uma função com distribuição normal e nesse caso os valores extremos tanto para a esquerda quanto para a direita conhecidos como caudas devem ser próximos em módulo Se por exemplo o valor máximo fosse bem diferente em módulo do valor mínimo teríamos uma assimetria A seguir está o desviopadrão que tal como especificado esperavase ter um valor unitário Por fim duas outras estatísticas são importantes para avaliar os nossos dados a assimetria e a curtose1 Ambas são estatísticas derivadas a partir da média e do desviopadrão e úteis para caracterizar o tipo de distribuição dos dados Programação 411 Podemos fazer todas essas estatísticas descritivas utilizando os comandos de programação do EViews R Abaixo vamos utilizar o scalar para apresentar a funções típicas para obter as estatística descritivas de uma série x scalar m meanx scalar md medianx scalar mx maxx scalar min minx scalar std stdevx scalar assimetria skewx scalar curt kurtx Como vimos acima o valor máximo e mínimo dos dados são muito próximos em módulo o que acaba não gerando caudas para a nossa distribuição Sendo assim podemos esperar que os nossos 1Skewness e Kurtosis Figura 42 Assimetria à direita e assimetria à esquerda dados tivessem uma distribuição simétrica tal como sinalizado por exemplo pela igualdade entre a média e a mediana Valores negativos para a assimetria indicam uma distribuição assimétrica para a esquerda enquanto um valor positivo indica assimetria a direita Os gráficos da Figura 42 mostra como se comporta a assimetria à direita e à esquerda Para comprovar isso calculamos a assimetria no EViews com a seguinte fórmula S 1N yi ȳσ 3 onde N é o número de observações que no nosso caso é 1 milhão yi é cada uma das i observações ȳ é a média dessas observações e σ é o desviopadrão amostral Para o nosso exemplo a assimetria é muito próxima do valor zero o que é esperado para uma curva com distribuição normal Podemos facilmente mostrar como que apenas alguns valores extremos contribuem para gerar assimetria no banco de dados Vá em View e depois SpreadSheet Com a série aberta mude os cinco primeiros valores para números elevados como 6 7 e 8 Para tanto clique em Edit na barra superior Refaça o histograma e poderá ver como os dados apresentam assimetria à direita Se repetir esse exemplo colocando elevados valores negativos poderá ver que o histograma apresentará assimetria à esquerda A curtose por outro lado é uma medida relacionada à concentração dos dados influenciando no desenho da curva verticalmente Um conjunto de dados com um valor alto para a curtose concentra os dados na média diminuindo bastante rapidamente quando se afasta da média Por outro lado dados com curtose baixa tendem a ser mais planos com os dados mais distribuídos Distribuições com curtose alta podem ser chamados de leptocúrticos como os retornos das ações na bolsa de valores enquanto distribuições com curtose mais baixa podem ser denominadas platicúrticas Para o nosso exemplo observamos na Figura 43 uma curtose com valor 30008 um valor muito próximo ao que se espera de uma curva normal que é 3 O cálculo da curtose pode ser feito a partir de Z 1N yi ȳσ 4 note que também para esse cálculo usamos apenas as estatísticas de média e desviopadrão As duas últimas informações estão relacionadas a um teste de função de distribuição Até então fizemos uma avaliação na forma de estatística descritiva Porém somente a assimetria e curtose não são suficientes para confirmar que os dados possuem ou não uma distribuição normal Há diversas formas para testar a possibilidade de um conjunto de dados terem uma distribuição normal ou não Além disso há testes que são aplicados para conjunto de dados multivariados e também podemos testar outras distribuições Nesse resumo de estatística descritiva o EViews retorna o resultado Figura 43 Histograma e Estatísticas de uma série Z para o teste de normalidade de JarqueBera Esse valor é encontrado usando a fórmula JB N6 S² k3²4 onde N é o número de observações S é o valor da assimetria e k a curtose Substituindo os valores que vimos acima encontraremos JB 10000006 00053² 30008 3²4 4799 Esse teste é aplicado sob a hipótese nula de existência de distribuição normal e a hipótese alternativa seria que os dados não são distribuídos normalmente Note que apenas estamos testando se a curva é normal não estamos testando uma função de distribuição alternativa Portanto podemos apenas concluir se os dados são distribuídos normalmente ou não Ou seja o teste não permite inferir se a distribuição é quiquadrado F ou qualquer outra função No capítulo sobre funções de distribuição aprendemos que a função quiquadrado é utilizada em testes para verificar diferenças de distribuição entre duas amostras No caso do teste de JarqueBera ocorre exatamente isso temos um teste que tem uma estatística que usa a função quiquadrado para testar a hipótese nula possuindo 2 graus de liberdade Sendo assim o mesmo é representado a partir de χ²2 Para o nosso exemplo temos que χ²2 47999 e usamos essa informação para encontrar o chamado pvalor que no EViews é o mesmo que probability É essa estatística que irá dizer se aceitamos ou rejeitamos a hipótese nula O número 47999 em uma distribuição χ²2 quiquadrado com 2 graus de liberdade produz pvalor00907 Isso pode ser encontrado no EViews a partir do comando scalar qq1cchisq479992 Sendo assim não é possível rejeitar a hipótese nula de distribuição normal As mesmas informações podem ser obtidas a partir da função viewdescriptive estatistics testsstats table por isso não há necessidade de comentar seu uso No box de programação mostramos como podemos montar um teste de JarqueBera usando os comandos que retornam o resultado para a assimetria e a curtose Programação 412 Para fazer o histograma com a estatística dos dados podemos usar o comando hist para a série x e aplicar o comando freeze para salvar um gráfico com o nome G1 42 Estatísticas por classificação Statistics by Classification 59 xhist freezeG1 xhist Se estivermos interessados em ver apenas o resultado do teste de normalidade de JarqueBera devemos construir o teste Nesse caso o primeiro passo é determinar um escalar e escolher um nome suponha jb e depois aplicar seu resultado na curva quiquadrado Scalar jbobsx6skewx2kurtx324 Scalar testejbchisqjb2 Na primeira parte construímos a estatística de JarqueBera usando os comandos obs para retornar o número de dados skew para encontrar a estatística de assimetria e kurt para determinar a curtose A seguir encontramos o pvalor a partir da distribuição quiquadrado com 2 graus de liberdade 42 Estatísticas por classificação Statistics by Classification Quando estamos trabalhando com dados que podem ser separados por diferentes categorias ou mesmo se quisermos compreender melhor um determinado subconjunto de dados dentro do conjunto maior ou então comparar diferentes conjuntos de dados podemos recorrer às estatísticas por classificação Com a série de dados aberta clique em view Descriptive Statistics Statistics by classifica tion Do lado esquerdo da janela ver Figura 44a selecione apenas o número de observações Depois escreva o nome de duas séries separadas por espaço Vamos usar para esse exemplo a série aleatória z com distribuição normal e a série t que tem distribuição tstudent com 50 graus de liberdade Na opção Group into bins if deixe marcado apenas para valores 100 e um número máximo de bins de 3 isso representa o número de classes de distribuição dos dados a seguir clique em ok A Figura 44b apresenta os resultados O EViews R mostra uma contagem dos dados dos dois grupos Na linha estão aqueles referentes a z com três intervalos e na coluna para a série t também com três intervalos A última linha e coluna são dos totais Note que é feita a contagem de dados considerando a intersecção entre os dois conjuntos de dados Por exemplo no intervalo 50 temos 249688 dados Porém se avaliarmos apenas a linha do intervalo 50 para z teremos um total de 499392 dados onde há informações tanto de z quanto de t nesse intervalo Por fim o total de dados reportados tem que ser igual ao total de cada série Do total de 1 milhão de dados há 499982 na série x que estão no intervalo 50 e outros 500011 que estão no intervalo 05 O mesmo tipo de análise pode ser feito para obter informações conjuntas sobre outras estatísticas como mediana desviopadrão e etc Vejamos como exemplo considerar o mesmo conjunto de dados e selecionar tanto a estatística de média Mean quanto a de assimetria skewness A tabela de resultado é como a tabela 45 Mantemos o número máximo de classes em três a última linha e a última coluna são os totais para cada subgrupo e o total de dados Por exemplo o valor 0001053 na última célula da tabela referese à média do conjunto de dados z e logo abaixo o valor 0005350 é a assimetria dos dados z Isso acontece pois pedimos essa estatística a partir da abertura do conjunto de dados z Se ao invés disso tivéssemos aberto o conjunto de dados t e feito a estatística por classificação essa última célula revelaria a média e assimetria para a série t No intervalo 50 de z com 50 de t a média é 079 e significa que os 249688 dados das duas amostras que caem meste intervalo possuem média 079 e uma assimetria de 1004 60 Capítulo 4 Estatísticas testes de hipótese e ANOVA a Opções de classificação b Classificação das observações Figura 44 Statistics by Classification Figura 45 Classificação por média e assimetria 43 Testes de Hipótese Essa é uma importante ferramenta estatística para testar hipóteses em séries de dados individuais ou em conjunto Vimos que a média da série de dados x é 0001053 e que seu desvio padrão é 1 Vamos testar a hipótese que a média é igual a 001 Vá em viewdescriptive statistics testssimple hypothesis tests e na caixa de diálogo que aparece Figura 46a especifique o valor da média a ser testado No nosso exemplo 001 Podemos deixar em branco a informação do desvio padrão que é pedida à direita em mean test assumption Assim na caixa que descreve mean digite o valor 001 E na parte Enter sd if known que corresponde ao desviopadrão da nossa série de dados não especifique nada A seguir clique em ok Para esse exemplo é possível ver como resultado apenas com a estatística t o teste de média que segue uma distribuição tstudent Destacase que esse é um teste bicaudal pois estamos a b Figura 46 Teste de Hipótese 44 Teste de Igualdade por Classificação 61 testando H0 média 001 H0 média 001 O resultado mostrado para o pvalor nos leva a rejeitar a hipótese nula de igualdade inclusive a menos de 1 de significância Ou seja a média de x é estatisticamente diferente de 001 O teste é realizado usando os valores amostrais para a média e o desvio padrão e a fórmula tstatistic x µ sn Substituindo os valores da Figura 46b teremos tstatistic 000043001 1000312 1000000 104265 Por fim o probability é dado usando prob ctdist104265 999999 Lembre que os graus de liberdade são dados por N 1 e que esse é um teste bicaudal Seguese o mesmo procedimento para testar a igualdade da variância ou da mediana Podemos refazer o teste especificando o desviopadrão Nesse caso são reportados dois resultados um para a estatística Z que segue uma distribuição normal e outro para uma estatística t com desvio padrão desconhecido Se esse teste for aplicado para identificar se a variância é igual a determinado valor a hipótese nula é de igualdade e usase a estatística χ2 N1 para o teste Sendo assim é aplicada a fórmula χ2 N 1s2 σ2 41 onde s2 é a variância amostral 44 Teste de Igualdade por Classificação Esse teste é muito utilizado no caso de dados categóricos e para verificar a relação entre subconjuntos de dados Por exemplo é possível testar se a renda média é a mesma para homens e mulheres Os testes assumem que as subamostras são independentes Indo em viewdescriptive statistics testsequality tests by classification será apresentada a caixa de dialogo 47a Existem as opções de realizar testes de igualdade entra a média a mediana e a variância das séries Em SeriesGroup for classify informase as categorizações de análise As opções disponíveis em Group into bins if são as mesmas descritas na seção 42 O teste de igualdade de média é um teste ANOVA2 A hipótese nula é que os subgrupos tem a mesma média e que dessa forma a variância entre as médias da amostra devem ser as mesmas que as variâncias entre quaisquer subgrupos Comparando a série z categorizada pela série t observamos pela Figura 47b que há uma alta probabilidade que z não difira entre os grupo definido por t pois tanto o teste ANOVA padrão quanto o teste de Welch apresentam probabilidade acima acima de 70 Ou seja não é possível rejeitar a hipótese nula de igualdade Caso o teste fosse categorizado por dois grupos digamos t e q seria apresentado apenas o teste ANOVA padrão Em ambos os casos o EViews R retorna uma tabela com a fonte da variância comparando resultados entre os grupos between groups e dentro dos grupos within groups O resultado do teste é via 2O teste ANOVA também conhecido como análise de variância é uma técnica de teste de hipótese usada para testar a igualdade de duas ou mais médias amostrais de uma população também denominadas de tratamento Na seção 48 será abordado esse tema com mais detalhamento 62 Capítulo 4 Estatísticas testes de hipótese e ANOVA a b Figura 47 Teste de Igualdade distribuição FG1NG onde G é o número de grupos no exemplo G 2 e N é o número de observações Para o teste de igualdade de mediana o EViews R calcula vários testes com a hipótese nula de que os subgrupos têm a mesma distribuição geral contra a hipótese alternativa de que pelo menos um subgrupo tem uma distribuição diferente Caso sejam definidos dois subgrupos a hipótese nula é de que os dois subgrupos são amostras independentes da mesma distribuição Os testes de igualdade da variância avaliam a hipótese nula de que a variância em todos os subgrupos é igual enquanto a hipótese alternativa é de que pelo menos um dos subgrupos tem variância diferente Os principais testes oferecidos pelo EViews R para testar a igualdade da variância são teste F teste de Levene e o teste de BrownForsythe Ao utilizar o teste F para atestar diferença de variância entendemos que os grupos tem distribuição normal tornando os outros dois mais robustos 45 Teste de Distribuição Empírica KolmogorovSmirnov De posse de um conjunto de dados é muito comum não conhecermos como os mesmos são distribuídos Para tanto podemos aplicar um teste de distribuição para comprovar se possuem uma distribuição normal por exemplo como vimos no teste de JarqueBera ou então podemos estar interessados em saber se a distribuição de nossos dados é igual a alguma outra distribuição teórica Nesse caso há várias outras opções que podem ser verificadas no EViews R conhecidas como EDF test Por exemplo usando os dados do Capítulo 3 podese investigar se a distribuição da série de dados z pode ser aproximada por uma normal Nesse caso com a série z aberta clique em View Descriptive statistics tests Empirical distribution tests A seguir dentre as opções que existem vamos testar se a série de dados z tem uma distribuição normal Deixe a opção para escolha dos parâmetros vazia isso fará com que o EViews R estime os mesmos Note na figura 48b que há vários resultados de testes e que são mostrados em duas partes Na primeira estão diversos testes estatísticos para verificar a hipótese nula de igualdade entre a distribuição empírica e a teórica que nesse caso é a curva normal Assim temos o teste de Lilliefors Cramervon Mises Watson e AndersonDarling Na primeira coluna temos o valor do teste e na última o pvalor Pelo resultado do pvalor aceitamos a hipótese nula de distribuição normal em todos os quatro testes propostos Ou seja os dados em z possuem distribuição normal A segunda parte mostra os parâmetros estimados da nossa distribuição teórica A média3 MU é 0001053 e o desviopadrão4 SIGMA de 0998978 Note que esses dois resultados 3MU representa a letra grega µ 4SIGMA representa a letra grega σ 45 Teste de Distribuição Empírica KolmogorovSmirnov 63 a b Figura 48 Teste de Distribuição Empírica para a média e desviopadrão são iguais aos obtidos quando pedimos o Histogram Statistics Figura 43 A seguir em Prob temos o teste para identificar se esses valores são estatisticamente iguais a zero No primeiro caso o pvalor02918 sinaliza que o valor da média é estatisticamente igual a zero esse foi encontrado usando z 00010530 0000999 1054 Logo abaixo temos pvalor00000 que significa que o valor de SIGMA ou seja o desviopadrão é estatisticamente diferente de zero o que era esperado Lembrese que simulamos um conjunto de dados com desviopadrão igual a 1 Se tentar testar outras distribuições teóricas irá perceber que muitas não são possíveis pois temos valores negativos Agora faça o mesmo teste para identificar se a série de dados q simulada para ter uma distribuição quiquadrado possui uma distribuição normal O resultado é como mostrado na Figura 49a Note que agora rejeitamos fortemente a hipótese nula de igualdade da distribuição empírica e a teórica Nesse caso pela segunda tabela de resultados podemos ver que os parâmetros de média estimados para a distribuição teórica nesse caso a normal são média igual a 1000459 e desvio padrão igual a 1416870 Pelos resultados dos testes na primeira parte da tabela na Figura 49a rejeitamos a hipótese nula de distribuição normal dos dados De fato como a série q foi gerada de acordo com uma distribuição quiquadrado podemos testar essa distribuição Refazendo o teste EDF só que agora especificando como função teórica a curva quiquadrado deixe o EViews R estimar o número de graus de liberdade teremos um resultado diferente Nesse caso pelo pvalor todos 1 aceitamos a hipótese nula de igualdade das distribuições Mais abaixo na segunda tabela podemos ver a estimativa dos graus de liberdade5 NU 0999453 praticamente o mesmo utilizado para formar a série onde consideramos ν 1 Programação 451 Para fazer o teste de distribuição empírica no eviews via programação podemos usar o comando abaixo Nesse caso o default é testar se a série de dados em questão possui uma distribuição normal onde os parâmetros de média e desvio padrão são estimados xedftest Alternativamente podemos testar se a série q possui uma distribuição quiquadrado usando 5NU representa a letra grega ν 64 Capítulo 4 Estatísticas testes de hipótese e ANOVA qedftestdistchisq a b Figura 49 Teste de Distribuição Empírica 46 Teste de Igualdade Test of Equality É comum querer testar se dois grupos de dados sejam eles categóricos ou então séries de tempo possuem média ou variância iguais Para fazer isso noEViews R devemos primeiro criar um grupo Esse procedimento é conhecido como ANOVA e pode ser melhor entendido na Seção 48 47 Gráficos Analíticos Fazendo a distribuição dos dados Anteriormente no capítulo sobre gráficos aprendemos a fazer alguns tipos diferentes de gráficos misturando curvas teóricas com estimativas de kernel e histograma Porém naquele momento o resultado conhecido era apenas de um gráfico o que inviabilizava usar os dados gerados para outra análise Felizmente o EViews R permite salvar os resultados desses gráficos em uma matriz Assim o objetivo dessa função é poder salvar os resultados que são úteis para avaliar a distribuição dos dados criando os intervalos Vejamos um exemplo Abra a série de dados z e a seguir em Proc Make Distribution Plot Data Note que irá abrir a janela representada na Figura 410a Nesta há várias opções que podem ser testadas e customizadas sendo que as especificações do lado direito da tela mudam conforme a seleção com o tipo de dado selecionado no lado esquerdo da janela Para iniciar imagine que se queira salvar os dados que podem ser utilizados para construir o histograma da série z Nesse caso selecione a opção Histogram Mais abaixo escolha um nome para poder diferenciar das demais estimativas escolhemos como nome para essa matriz histogramaz e do lado direito vamos pedir que sejam salvos os dados de frequência A seguir clique em ok A matriz histogramaz que é salva contém três colunas conforme a Figura 410b As duas primeiras C1 e C2 são os diversos intervalos do histograma A última coluna a C3 é a quantidade de dados ou seja a frequência dos mesmos que aparece naquele intervalo Por exemplo entre 4 e 375 temos 54 dados As outras duas opções para dados de histograma Scaling na Figura 410a são densidade e frequência relativa Ainda na parte de Specification é possível ver a opção Bin Width Esse se refere ao tamanho do intervalo que será utilizado para gerar o histograma Nesse caso podemos escolher entre um default do EViews ou diversas outras opções Uma alternativa interessante para ver como é o formato da distribuição dos dados é via Den sidade de Kernel Para a série de dados z vá em Proc Make Distribution Plot Data e depois selecione Kernel Density Nas demais opções deixe em bandwidt selecionado EViews e 100 grids points Para esse exemplo o EViews R retorna duas colunas Na primeira é o intervalo 48 Teste de Razão de Variância 65 a b Figura 410 Matriz de Distribuição superior da classe e na segunda coluna sua respectiva densidade Faça o gráfico da coluna 2 C2 e verá que temos uma distribuição próxima da curva normal A última opção interessante é usar em Data Type a função de densidade teórica selecionando Theoretical Density Do lado esquerdo há diversas funções que podem ser selecionadas e que irão retornar os resultados para a estimativa de uma função Programação 471 Para obter os resultados de um histograma ou de uma função de densidade qualquer podemos usar alguns comandos específicos Para fazer um histograma da serie x e depois salvando o resultado com o nome de histogramax usamos xdistdatadtypehist histogramax Para fazer uma estimativa usando a densidade de kernel usamos xdistdatadtypekernel kernelx A opção Unit Root Test será vista quando estudarmos séries de tempo bem como o teste de razão de variância O BDS Independence Test será visto em regressão simples bem como o correlograma 48 Teste de Razão de Variância A análise de variância conhecida como ANOVA é uma técnica de teste de hipótese usada para testar a igualdade de duas ou mais médias amostrais de uma população também denominadas de tratamento Para tanto a análise é feita via variância amostral Com essa técnica é possível determinar se a diferença entre duas amostras é causada por um erro aleatório ou então é uma diferença estrutural Para o uso da análise de variância temos que assumir três hipóteses i todas as populações que estão sendo usadas devem seguir uma distribuição normal o que acaba por caracterizar o teste como sendo paramétrico6 ii todas as populações devem ter a mesma variância iii as amostras 6Isso não quer dizer que não possa ser feito uma análise de variância de forma nãoparamétrica 66 Capítulo 4 Estatísticas testes de hipótese e ANOVA devem ser selecionadas de forma aleatória ou seja devem ser independentes Ao fazer o teste temos que ter em mente que a hipótese nula assumida sempre será de que a média das amostras selecionadas é igual Além disso como estamos trabalhando com a razão de variância nos dados usamos a distribuição F para o teste Há basicamente quatro tipos de teste ANOVA O primeiro é o testeoneway between groups Esse é o teste ANOVA mais simples e o objetivo é testar se existe diferença entre os grupos O segundo é o oneway repeated usado para ver por exemplo diferenças em um experimento repetido ou então para ver mudanças ao longo do tempo Os dois testes seguintes são mais complexos o twoway between group e twoway repeated Nesses é feita uma investigação iterativa entre os diferentes grupos Vamos ver um exemplo simples para fixar o conceito e que se encontra no arquivo de nome distribuição na planilha ANOVA Suponha que uma empresa aplicou três diferentes métodos para a produção de um produto e para cada um desses métodos coletou os resultados encontrados de forma aleatória durante um mês Ou seja pro método 1 temos 10 informações de produtividade para o método 2 e 3 de forma similar completando um universo de 30 resultados Esses métodos são descritos como c1 c2 e c3 Figura 411 Dados da Planilha ANOVA O natural nessa avaliação é responder se a média de produção difere entre os três métodos Em uma avaliação prévia podemos ver que o método 1 tem uma média de produtividade de 544 ao passo que para o segundo método é 399 e o terceiro método 448 Para ver as estatísticas dos dados selecione as três séries clique com o botão direito abra como grupo A seguir vá em Stats na barra de ferramentas Mas será que essa média é estatisticamente diferente entre c1 c2 e c3 Qual é o melhor método e qual é o pior Ou reformulando a pergunta será que o método de produção utilizado influencia na produção Para responder a esses pontos vamos usar o método ANOVA Para tanto iremos fazer uso de três estatísticas que representam a variabilidade dos dados seja dentro do grupo ou entre grupos i SQT Soma ao quadrado total ii SQE Soma ao quadrado do erro iii SQG Soma ao quadrado dos grupos De uma forma geral uma tabela de teste ANOVA é apresentada da seguinte forma onde n representa o número total de dados m é o número de grupos 48 Teste de Razão de Variância 67 Origem da varia bilidade Soma dos qua drados Graus de liber dade Variância do qua drado médio Razão F Entre médias 1082 2 541 570 Dados dos grupos within groups 2562 27 095 Total 3644 29 Tabela 42 Resultados das estatísticas para análise da variância dos dados Origem da varia bilidade Soma dos quadra dos Graus de li berdade Variância do qua drado médio Razão F Entre médias SQG nm j1xj x2 m1 MSG SQG m1 Fratio MSG MSE Dados dos grupos within groups SQE n i1 m j1xij xj2 nm MSE SQE nm Total SQT SQE SQG n1 Tabela 41 Estatísticas para análise da variância dos dados Para encontrar a primeira estatística SQT devemos calcular a média de todos os 30 dados denominada média total x Para o nosso exemplo essa é 4643 A seguir encontrar o desvio de cada dado xj em relação a essa média elevar ao quadrado e somar É a medida de variabilidade total de todo o conjunto de dados Assim SQT3644 A segunda estatística SQE é uma medida de variabilidade que deve ser encontrada para cada grupo within group Nesse caso para o primeiro método temos a média dos 10 dados que o integram e encontramos o desvio de cada dado em relação a essa média elevamos ao quadrado e depois somamos Sendo assim para o nosso exemplo teremos três valores de SQE um para cada um dos métodos que estamos usando Para o método 1 temos um SQE de 857 para o método 2 um SQE de 849 e para o método 3 um SQE de 855 A seguir ao somar os três resultados encontramos que SQE2562 Por fim a terceira estatística SQG é uma medida de variabilidade entre os diferentes grupos between group e que também é referida como entre médias Nesse caso ela representa a soma do quadrado dos desvios da média de cada grupo em relação a média total Ou seja encontramos a variabilidade da média do grupo que representa o método 1 em relação a média total elevado ao quadrado Isso é feito para cada uma das informações Assim no nosso exemplo teremos um resultado que se repete por 10 vezes no grupo 1 Depois fazemos o mesmo para o método 2 e para o método 3 Sendo assim teremos 30 resultados para SQG Ao fim somamos todos e obtemos SQG1082 De forma geral essas três estatísticas são encontradas sempre que se vai fazer o teste ANOVA independente de quantos grupos se está trabalhando Outro ponto interessante é a relação que existe entre elas dada a partir de SQT SQE SQG SQT 25621082 3644 68 Capítulo 4 Estatísticas testes de hipótese e ANOVA Note que a variabilidade total pode ser dividida em duas partes uma SQE que representa as características de cada grupo ou seja representa a diferença dos grupos cada qual com seu tratamento e a segunda SQG as diferenças entre os grupos a partir de um tratamento comum que seria considerando a média global Portanto a origem da variabilidade total pode estar ligada a cada uma dessas duas causas No nosso exemplo cada grupo tem 10 dados Dessa forma não há problema em usar a medida de variabilidade Porém pode ocorrer de compararmos grupos que possuem uma quantidade diferente de dados Nesse caso o grupo com maior número de dados irá ter naturalmente um maior valor para a variabilidade Aqui é que entra um ponto importante no uso da ANOVA devemos computar os graus de liberdade Para o conjunto total de dados usamos n1 onde n é o número de dados Sendo assim com 30 dados os graus de liberdade de SQT é 29 No caso do SQE usamos nm onde n é o número de dados e m o número de grupos No nosso exemplo n330327 Sendo assim SQE within group tem 27 graus de liberdade Por fim para SQG temos a diferença entre os graus de liberdade de SQT e SQE ou seja SQG tem 2 graus de liberdade De posse dos valores referentes aos graus de liberdade podemos agora fazer a respectiva ponderação nas variabilidades chegando a uma medida mais próxima da variância Isso é feito simplesmente dividindo os valores pelos seus graus de liberdade Em livros de estatística essa medida é denominada de MS Mean Square Assim temos MST para representar a estatística SQT ponderada pelos graus de liberdade MSE0949 relativa a SQE e MSG5411 que se relaciona com SQG Por fim encontramos a estatística F que é dada por Fratio MSG MSE 5411 0949 570 Se essa razão for igual a 1 então a parcela de variação explicada entre os grupos e a explicada pelo respectivo grupo é igual ou seja as médias são iguais Porém podemos chegar a essa mesma conclusão para valores diferentes de 1 Lembrese isso é estatística e nesse caso podemos ter um resultado que seja estatisticamente significante Porque estamos usando a estatística F para esse teste Na discussão sobre funções de distri buições ilustramos que a distribuição F é dada a partir da razão de variâncias sob a hipótese nula Portanto a curva F irá ter todos os resultados possíveis para as razões de variância A seguir calculamos o Fratio e identificamos se seu valor pode ser considerado estatisticamente significante comparando o mesmo com a distribuição F No nosso exemplo temos uma distribuição F227 ou seja com 2 graus de liberdade no numerador e 27 no denominador Podemos encontrar seu desenho a partir de um conjunto de 1000000 de dados aleatórios para ver como seria essa distribuição Programação 481 Para encontrar a forma como os dados de uma distribuição F se compor tam com 1000000 de dados aleatórios 2 graus de liberdade no numerador e 27 no denominador podemos usar series f5 qfdistrnd 227 Para fazer essa estimativa não se esqueça de usar uma planilha que tenha uma dimensão de 1000000 de dados como a usada no exemplo distribuição Note na Figura 412 que como temos 27 graus de liberdade no denominador a curva tem sua área um pouco menos concentrada perto do valor zero O próximo passo seria determinar qual o 48 Teste de Razão de Variância 69 Figura 412 Curva F227 pvalor associado a estatística Fratio 57 que foi encontrada no nosso teste Para tanto podemos fazer uso da função cumulativa cfdist veja o box de programação 482 Esse irá produzir como resultado pvalor0008 que é a área da curva á direita do valor F57 Sendo assim podemos concluir que os três métodos apresentam diferença no resultado final ou seja rejeitamos a hipótese nula a 08 Programação 482 Para encontrar o pvalor associado ao valor do teste F devemos ter em mente que a função cumulativa fornece a área até determinado valor Sendo assim devemos subtrair de 1 a partir de scalar f1cfdist570 227 Esse procedimento pode ser facilmente feito no EViews R sem a necessidade de todos esses cálculos Na planilha de nome ANOVA temos as nossas três séries de dados referentes aos nossos três métodos Como primeiro passo crie um grupo com essas três séries A seguir vá em View Tests of equality selecione mean e clique em ok Os resultados são apresentados em três partes Na primeira está o resultado final Figura 413a que aponta o teste F e também o teste de Welch A seguir está o bloco com o resultado da análise de variância Figura 413b com suas respectivas estatísticas SQG SQE e SQT além das MSG MSE e MST que são ponderadas pelos graus de liberdade Por fim no terceiro bloco Figura 413c são mostradas as estatísticas referentes às séries de dados que foram avaliadas suas respectivas médias desvio padrão e erro padrão tanto por grupo quanto no conjunto Vale destacar que apenas concluir que as médias são diferentes como identificado pelo teste acima não é o suficiente Muitas vezes estamos interessados em saber a origem dessa diferença e isso pode ser verificado a partir do intervalo de confiança O primeiro passo é determinar o tamanho do intervalo Vamos supor 95 para uma estatística t Nesse caso com 27 graus de liberdade o valor de t95 205 e o intervalo para cada grupo é construído a partir de médiat95σ Como obtemos esse resultado para t Usando a função do EViews que descreve o ponto a partir da área Lembrese que a curva t é bicaudal Como queremos 95 de intervalo de confiança sobra 70 Capítulo 4 Estatísticas testes de hipótese e ANOVA a Testes F e de Welch b Análise da Variância c Estatísticas do Grupo Figura 413 Teste de Igualdade das Médias entre as Séries ANOVA 5 para ser dividido nas duas áreas uma à esquerda com 25 e outra à direita com 25 Assim usamos a função scalar intervalo qtdist002527 Aplicando isso para os nossos valores da tabela anterior podemos encontrar os resultados apresentados na Tabela 43 Mínimo Média Máximo C1 481 544 607 C2 336 399 462 C3 385 448 511 Tabela 43 Intervalo de Confiança para a Média 95 Exemplo 41 Também há outra forma de fazer o teste ANOVA conhecendo apenas o número de observações a média e a variância dos dados em questão Suponha por exemplo que se queira verificar se o nível de qualificação de um trabalhador em determinada empresa influencia na sua produtividade Nesse caso selecionamos três tipos de trabalhadores estagiários formado pósgraduado para serem avaliados Os resultados são mostrados na tabela No Média Variância Estagiário 23 291 183 Graduado 21 281 169 Pósgraduado 16 213 152 Como primeiro passo definimos as hipóteses H0 não há diferença entre os níveis de qualificação e produtividade Ha Existe diferença de produtividade entre os níveis de qualificação No total foram 60 dados distribuídos em 23 estagiários 21 trabalhadores graduados e 16 com pósgraduação A seguir temos as respectivas médias de tempo gasto para executar uma tarefa e a variância Note que aqui não temos os dados da pesquisa apenas os resultados de média e variância Mas podemos fazer o teste ANOVA mesmo assim O primeiro passo é determinar a média total entre os três grupos No nosso exemplo essa é dada por 2116 A seguir fazemos a soma do quadrado total que consiste em fazer a diferença entre a média de cada grupo e a média total SQG n1x1 x n2x2 x n3x3 x SQG 23291 2616 21281 2616 16213 2616 SQG 65534 A seguir encontramos a estatística SQE que é uma medida de variabilidade de cada grupo within group usando a formula do SQE onde s²i é a variância do grupo i temos SQE n1 1s²1 n2 1s²2 n3 1s²3 SQE 22183 20169 15152 SQE 96860 Agora devemos fazer o ajuste para cada uma das estatísticas pelos graus de liberdade No caso da SQG os graus de liberdade são dados pela diferença entre o número de argumentos menos um Como temos três diferentes argumentos estagiário graduado e pósgraduado então há 2 graus de liberdade para SQG No caso de SQE os graus de liberdade são dados pela diferença entre o total de dados utilizados e o número de argumentos Como temos um total de 60 dados então os graus de liberdade de SQE serão 57 Podemos assim encontrar a estatística F F SQGm1 SQEnm 655342 9686057 192828 Com esse resultado rejeitamos fortemente a hipótese nula basta ver em scalar f 1cfdist192828 257 no EViews que produz um pvalor0000 Sendo assim o nível de qualificação é importante para determinar diferenças na produtividade Descobrimos que existe diferença mas não de onde vem essa diferença Para responder a esse ponto aplicamos um teste de diferença de média que usa a curva t Como temos três argumentos para descobrir a origem da diferença temos que testar aos pares Nesse tipo de teste temos que determinar apenas qual é o nível de significância procurado para que se construa o intervalo de confiança Como regra geral ao avaliar a diferença entre a média do grupo 1 com a média do grupo 2 usamos μ1 μ2 tα2c SQEmn 1n1 1n2 onde μ1 é a média do grupo 1 tα2c é a estatística t avaliada em um ponto α é o nível de significância mn é o número de graus de liberdade n1 é o total de dados do grupo 1 e c é dado por c mm12 Como regra de decisão se o intervalo de confiança não contiver o valor 0 então rejeitamos a hipótese nula Primeiro vamos descobrir se tem diferença entre o resultado para estagiário e graduado H0 μestagiário μgraduado Ha As médias são diferentes Nesse caso temos c 3312 3 e para α 005 temos que encontrar o valor de tα2c t0056 00083 Isso pode ser feito no EViews utilizando scalar tqtdist0008357 Com isso temos um valor de 246 Agora é só determinar o intervalo 291 281 246 16992 123 121 Dessa forma não rejeitamos a hipótese nula Ou seja a média entre estagiários e graduados é estatisticamente igual Faça a mesma conta para verificar a diferença de média entre estagiário e pósgraduado O resultado será 449 μ1 μ3 1110 fazendo com que se rejeita a hipótese nula ou seja há diferença de média entre estagiários e pósgraduados Por fim podemos fazer para verificar a diferença entre graduado e pósgraduado o que irá resultar em 343 μ1 μ3 1016 Também apontando para a rejeição da hipótese nula ou seja temos diferença entre as médias Programação 483 Diante de dados como o apontado no exemplo da qualificação podemos usar de programação para produzir os resultados do teste ANOVA de maneira direta programa para calcular o intervalo de confiança em um teste ANOVA os parametros abaixo podem ser modificados n representa o total de dados por gruposm representa a media do grupo scalar n123 scalar n221 scalar n316 scalar totaln1n2n3 scalar m1291 scalar m2281 scalar m3213 scalar sqe196860total3 parâmetros de escolha para o intervalo scalar alfa005 resultado para a estatística t scalar tqtdistalfa6total3 testando a diferença entre m1 e m2 scalar minimom1m2tsqrtsqe11n11n2 scalar maximom1m2tsqrtsqe11n11n2 49 Exercícios Exercício 41 Três tipos de baterias estão sendo testadas sob condições de alta pressão Na tabela abaixo está o tempo em horas que 10 baterias de cada marca funcionou antes de ficar sem energia 49 Exercícios 73 Marca da bateria 1 2 3 560 538 640 543 663 591 483 460 656 422 231 664 578 455 559 522 293 493 435 390 630 363 347 677 502 425 529 517 735 518 a Use a análise de variância para determinar se as baterias de cada marca levaram tempos significativamente diferentes para descarregar por completo Se o tempo de descargamento for significativamente diferente ao nível de confiança de 005 determine qual marca de bateria diferem uma das outras Especifique e verifique os pressupostos do modelo b Podemos dizer que resultados da marca 1 tem distribuição normal a 5 de significância A tabela ANOVA do Exercício 41 é Soma dos quadrados Graus de liberdade Var do quadrado médio Razão F Entre médias 1077 2 539 479 Within groups 3033 27 112 Total 4111 Testando 5 de significância a região crítica inclui os valore superiores a F227095 3354 O resultado da Razão F 479 fica na região crítica portanto rejeitamos a hipótese das médias serem iguais O teste indica que não há diferença entre as marcas 1 e 2 mas a marca 3 diferese da marca 2 O resultado do teste de JarqueBera foi 50603 e aplicando à uma distribuição quiquadrado com 2 graus de liberdade temos que χ2 2 00796 Portanto não podemos rejeitar a hipótese nula de existência de distribuição normal Exercício 42 Uma siderúrgica está testando a eficiência do seus altofornos Para a produção de uma peça específica o forno precisa alcançar rapidamente a temperatura de 900 C Quatro fornos foram testados várias vezes para determinar o tempo em minutos que levavam para atingir essa temperatura e foram obtidos os seguintes resultados Forno ni xi si 1 15 1421 052 2 15 1311 047 3 10 1517 060 4 10 1242 043 O tempo médio de aquecimento dos fornos são diferentes Caso sejam qual forno é o mais rápido E qual é o mais lento A tabela ANOVA para o Exercício 42 é 74 Capítulo 4 Estatísticas testes de hipótese e ANOVA Soma dos quadrados Graus de liberdade Var do quadrado médio Razão F Entre médias 47106 3 15702 61303 Within groups 11782 46 02561 Total 58888 49 Testando um nível de 5 de significância F346095 2802 Considerando que 61303 2806 rejeitamos a hipótese nula Assim consideramos que o tempo médio de aquecimento dos fornos diferemse Realizando múltiplas comparações concluímos que o forno número 4 é o mais rápido e o número 3 o mais lento 5 Características dos dados de séries de tempo Um banco de dados pode ser organizado de várias formas e os testes e modelos aplicados seguem esse desenho Para dados com periodicidade definida como mês trimestre ou ano usamos os conceitos de série de tempo Por outro lado podemos ter dados que descrevem as características em um dado momento de vários indivíduos denominados de cross section Também há a opção de dados em painel que agrega informações de indivíduos com o tempo Nesse capítulo serão apresentadas as principais características de uma série de tempo assim como os ajustes e filtros possíveis de serem aplicados com o EViews R Com conjunto de dados de série de tempo é possível extrair várias informações que ajudam a compreender o comportamento desses ao longo do período 51 Ajuste Sazonal A sazonalidade é entendida como um processo que pode ter diferentes periodicidades dentro de um determinado período Podemos identificar a presença de sazonalidade em dados trimestrais ou mensais os mais comuns mas também é possível que se tenha um comportamento sazonal em dias dentre de uma semana horas e etc As primeiras investigações 1 sobre essa característica dos dados remontam a 1884 e até mais recentemente a forma de identificar essa era decompondo a série de dados yt a partir de seus componentes como tendência Tt ciclo Ct sazonalidade St e componentes irregulares It Os modelos construídos a partir de então são denominados de modelos de componentes nãoobserváveis podendo ter a forma de aditivo yt Tt Ct St It Ou então multiplicativo yt Tt Ct St It De início os modelos que procuravam determinar o comportamento sazonal de uma série de tempo assumiam que esse era constante ao longo do tempo Porém há diversos fatores 1Uma boa referência para essa discussão histórica está em Hylleberg1986 76 Capítulo 5 Séries de tempo como mudanças na temperatura média diferentes expectativas mudança de comportamento do consumidor efeito feriado e outros que podem produzir um padrão sazonal diferente hoje do que se identificava no passado Um ponto importante a lembrar é que a não correção da característica sazonal dos dados antes de se fazer uma análise de regressão bem como a aplicação de um filtro errado para corrigir a sazonalidade podem distorcer os resultados finais e prejudicar a interpretação Nesse caso podemos escolher resolver o problema sazonal de maneira integrada com o modelo final ou então de maneira individual antes da modelagem final Esse caso é o mais comum onde são usadas variáveis dummy para corrigir o problema da sazonalidade Outra alternativa é o uso do Band Pass Filter onde a análise é feita a partir do domínio da freqüência e é utilizada uma transformação de Fourier na série de dados Os modelos de série de tempo para correção da sazonalidade como apontado por Hylle berg2006 podem ser de vários tipos No caso univariado i modelos de BoxJenkins ii modelos de componentes nãoobserváveis iii modelos de parâmetros variáveis no tempo Para o caso multivariado i cointegração sazonal ii cointegração periódica iii características sazonais comuns Como primeiro passo de investigação de uma característica sazonal vamos ver sua representação gráfica Para essa seção vamos usar a série que descreve o PIB mensal do Brasil e calculada pelo Banco Central o IBCBR número 17439 sem ajuste sazonal Você pode fazer o download da mesma no site do BC ou abrir o arquivo de nome IBCbrwf1 Selecione a sérieibcbr e clique em ViewGraphSeasonal Graph tal como mostrado na figura 51 Figura 51 Opções de Gráfico Sazonal Note que em seasonal type temos duas opções a primeira quando é selecionado Paneled lines means irá mostrar como a série de dados se comporta para cada mês ou trimestre e na segunda opção em Multiple overlayed lines os dados são divididos em diferentes linhas cada qual representando o período específico para todo o período amostral Vai da opção de cada um ver qual dos dois gráficos melhor descreve o comportamento dos dados não havendo regra Ambos os gráficos são mostrados na figura 52 O primeiro 52a indica doze linhas de cor azul lembrese que estamos usando dados mensais e que sinalizam como evoluíram os dados em cada mês durante todo o período de análise Esse é complementado com a informação da média para cada mês indicada pela linha vermelha Por exemplo a primeira informação relacionada ao mês de 51 Ajuste Sazonal 77 fevereiro ocorre em 2002M02 e tem valor 99 ao passo que a última em 2015M2 tem valor 138 A média dos valores do mês de fevereiro é 121 e é exatamente a linha vermelha horizontal Para identificar esse valor o leitor deve deixar o mouse posicionado sobre a linha vermelha no gráfico no EViews R Note que a média de valores do mês está bem longe dos extremos sinalizando que durante o período de análise a sazonalidade do mês teve forte modificação tendo atingido um mínimo de 99 e um máximo de 144 Certamente seria um erro considerar a sazonalidade média como representativa de tudo A segunda forma de ver o comportamento dos dados separados para cada um dos meses é selecionando a opção de múltiplos gráficos Multiple overlayed lines cujo resultado está mostrado na figura 52b Note que há uma tendência de crescimento dos valores para cada mês ao longo do tempo Isso tem uma implicação importante como comentado acima em especial pelo fato de que usar a média de cada mês para identificar e corrigir padrão sazonal estaria incorreto ou seja a média de cada trimestre não é constante ao longo do tempo Uma parte da literatura em econometria usa a média como fator de dessazonalização Isso é conhecido como sazonalidade determinística e sua correção é feita com o uso de variáveis dummy valores zero e um a Linhas em painel e médias b Linhas sobrepostas Figura 52 Gráfico da Sazonalidade Mas há outros métodos mais sofisticados e específicos que podem ser utilizados e oEViews R permite seu uso Com a série ibcbr aberta vá em ProcSeasonal Adjustment Note que são fornecidas cinco diferentes opções para se dessazonalizar os dados Vamos discutir os aspectos gerais do método X12 comparativamente ao método das médias móveis e TRAMOSEATS sem entrar no detalhe técnico que pode ser visto em outros livros de econometria 511 Método das Médias Móveis Moving Average Methods Esse método é simples a ponto de resultar em uma importante perda de informação do comporta mento sazonal dos dados Nesse caso a modelagem é feita a partir de yt S s1 δstms εt Onde S é o número de períodos se dados mensais S12 e se forem trimestrais S4 δst assume valores 1 para o respectivo período sazonal em questão e zero caso contrário ms é o valor da média desses períodos e por fim εté estacionário com média zero Sendo assim a equação geral que irá medir a sazonalidade por médias para dados trimestrais é dada por qxt δ1tm1 δ2tm2 δ3tm3 δ4tm4 εt 78 Capítulo 5 Séries de tempo No caso de uma série de dados com periodicidade mensal teremos 12 variáveis δst Para encontrar os respectivos valores devemos criar séries de dados usando variáveis dummy de valor 1 e 0 tal como mostrado abaixo no caso trimestral qx Primeiro Segundo Terceiro Quarto trimestre trimestre trimestre trimestre 1997Q1 38027 1 0 0 0 1997Q2 44520 0 1 0 0 1997Q3 45070 0 0 1 0 1997Q4 46547 0 0 0 1 1998Q1 45003 1 0 0 0 1998Q2 42943 0 1 0 0 1998Q3 44047 0 0 1 0 A seguir rodamos a regressão para encontrar os respectivos valores de ms Note que essa regressão é feita sem o uso da constante Caso contrário seria encontrado cinco valores para a média em dados trimestrais e treze em dados mensais e a matriz não seria simétrica Vejamos como o EVi ews R faz essa estimativa Com a série ibcbr aberta vá em ProcSeasonal AdjustmentMoving Average Methods Escolha o método multiplicativo e um nome para a série resultante aqui no exemplo colocamos o número 1 na frente para diferenciar esse método de dessazonalização do X12 a ser visto a seguir Programação 511 Também pode ser usado um comando para se fazer a dessazonalização Nesse caso para o método multiplicativo podemos escrever seasm ibcbr ibcbrsa ibcbrsf A letra m representa o método multiplicativo Caso queira o método aditivo use a O comando é seguido pelo nome da série o nome da série ajustada sazonalmente e o fator sazonal É comum trabalhar com modelos com várias séries de tempo o que demandaria tempo para aplicar o método de dessazonalização para cada uma Como forma de operacionalizar isso de maneira rápida podemos usar um loop para dessazonalizar todas as séries do banco de dados ao mesmo tempo com apenas um comando simples Porém nesse caso é necessário abrir um programa antes Vá em FileNewProgram A seguir escreva o programa abaixo e salve em qualquer lugar do computador e feche o mesmo for a qx y px pm qm seasm a asa asf next Aqui o termo a denominado no EViews R como string variable indica para o programa que ele irá aplicar a fórmula a todas as séries descritas na sequência seguindo uma de cada vez qx y px pm qm A seguir estão os comandos para salvar as respectivas séries ajustadas sazonalmente e o fator sazonal Para rodar o programa abra o arquivo onde estão os dados Depois vá em windowcommand Note que foi aberta uma janela onde pode ser escrito qualquer fórmula ou programa Assim para rodar o nosso programa escreva o comando run seguindo a localização do programa no computador como por exemplo c run localização do programa A seguir aperte o enter e o programa será executado Esse procedimento é válido para todas as demais aplicações a seguir que envolvem a construção de um programa Como selecionamos a opção de aparecer o fator sazonal o EViews retorna 12 fatores um para cada mês em uma tabela Para não perder essa informação clique em Freeze escolha um nome e depois salve a mesma Esses representam exatamente os fatores sazonais para cada trimestre Se estivéssemos com dados mensais seriam 12 fatores Como nesse método é assumido que os fatores ficam contínuos durante todo o período amostral o gráfico do padrão sazonal apresenta um fator constante como pode ser visto na figura 53 a Ajuste sazonal médias móveis b Fator sazonal médias móveis Figura 53 Gráfico da Sazonalidade Método das Médias Móveis Uma forma interessante de representar esse comportamento sazonal é via uma função trigonométrica qxt α0 k1S2 αk cos 2πktS βt sen 2πktS εt Onde o α0 é uma constante que representa a média e S é o número de componentes sazonais Suponha o exemplo de uma série trimestral Nesse caso S4 e teremos qxt α0 k12 αk cos 2πkt4 βt sen 2πkt4 εt qxt α0 α1 cos 2πt4 β1 sen 2πt4 α2 cos 2π2t4 β2 sen 2π2t4 εt qxt α0 α1 cos πt2 β1 sen πt2 α2 cos πt β2 sen πt εt Mas sen πt 0 sendo assim teremos qxt α0 α1 cos πt2 β1 sen πt2 α2 cos πt εt Onde t123 de acordo com o período amostral e o comportamento cíclico para as trajetórias anuais e semianual é dado por cos πt2 0 1 0 1 0 1 sen πt2 1 0 1 0 1 0 1 cosπt 1 1 1 1 Os componentes α1 e β1 representam a oscilação anual nos dados ao passo que α2 representa o componente semianual Para encontrar os valores desses componentes podemos usar α1 12 m2 m4 β1 12 m1 m3 α2 12 m1 m2 m3 m4 Vejamos para o nosso um onde m1 09479 m2 10105 m3 1035 m4 10078 Sendo assim teremos α1 12 m2 m4 12 10105 10078 000133 β1 12 m1 m3 12 09479 1035 00438 α2 12 m1 m2 m3 m4 12 09479 10105 1035 10078 00086 E o ciclo que domina todo o processo é o anual α1 e β1 são maiores que α2 Ou seja a frequência é mais forte no ciclo anual Os valores são pequenos pois o conjunto de dados tem uma pequena sazonalidade como mostrado pelas médias de cada trimestre Para construir a série do fator sazonal podemos usar o fato de que α0 1 α1 000133 β1 00438 e α2 00086 em qxt 1 000133 cos πt2 00438 sen πt2 00086 cos πt εt 512 TRAMOSEATS Na técnica TRAMOSEATS de dessazonalização combina dois métodos TRAMO e SEATS para decompor a série em seus componentes não observados A primeira é similar a uma regressão ARIMA e é utilizada antes como uma espécie de ajuste dos dados Ao passo que o SEATS é usado para extrair os sinais da série de tempo ou seja os componentes não observados a partir de um modelo aditivo yt TCt St It Sendo que TCt é o componente tendênciaciclo e os demais como dito anteriormente o componente sazonal e o irregular Para selecionar esse método com a série de dados ibcbr aberta vá em ProcSeasonal AdjustmentTRAMOSEATS O EViews irá abrir uma caixa que contém três diferentes opções A primeira delas referese às especificações básicas No 2 TRAMO Time Series Regression with ARIMA Noise Missing Observation and Outliers SEATS Signal extraction in ARIMA time series 3 Mais a frente iremos aprender como são os modelos ARIMA 51 Ajuste Sazonal 81 Figura 54 Opções TRAMOSEATS primeiro bloco podemos escolher rodar apenas o filtro TRAMO somente o SEATS ou então esse após o TRAMO método mais recomendado Normalmente deixamos o horizonte de previsão tal como o default do EViews R sem prejuízo dos resultados finais Na escolha do modelo ARIMA podemos determinar que a mesma é feita via seleção de dados em nível com transformação log ou uma seleção automática No último bloco podemos deixar o filtro TRAMO escolher a melhor especificação ARIMA ou então fazermos a escolha do modelo especificando os parâmetros Esse ponto é interessante pois muitas séries de dados que são dessazonalizadas por institutos de pesquisas já contém o modelo ARIMA e são fornecidos para uso por parte de terceiros Nesse caso se quisermos reproduzir o mesmo modelo basta imputar os dados tal que D é o número de diferenciações AR é o número do componente autorregressivo e MA o de médias móveis Do lado direito estão as opções para salvar as séries de dados Podemos escolher todas as opções encontrar as séries de tendência e do fator sazonal e depois fazer o gráfico Para extrair o componente sazonal temos que encontrar o fator sazonal pelo método aditivo Há duas outras abas com opções que podem ser uteis A Regressors é para especificar se no processo de identificação queremos colocar alguma variável exógena Na abaOutliers podemos escolher se tem algum especificando o período ou então deixar que o programa faça a identificação Ao clicar em OK o EViews R irá mostrar um relatório que contém todos os procedimentos testes e ajustes necessários no processo de estimativa Podemos salvar esse relatório clicando em Freeze Atualizando o mesmo poderá ver que o modelo final é da forma 211011 sem média sem correções para dias da semana ou páscoa A ordem dos números mostrados acima é AR D MASAR SD SMA ou seja temos um modelo ARIMA 211 com sazonalidade SARIMA 011 Veremos isso mais a frente A seguir o EViews R salva todos os resultados em um grupo de séries Salve esse como grupo 1 para consulta futura Agora selecione a série ibcbrtrd e ibcbrsf e faça um gráfico com dois eixos como mostrado em 55 513 Método Census X12 Esse é sem dúvida um dos métodos de identificação dos componentes de uma série de dados mais utilizado na literatura até o momento Quando esse é selecionado é possível identificar várias opções A primeira delas é a X11 Method Há pequenas diferenças no uso de cada uma mas recomendase ao leitor que utilize o método Additive caso tenha valores negativos ou zero Na 82 Capítulo 5 Séries de tempo Figura 55 Tendência e fator sazonal opção Seasonal Filter que irá gerar os fatores sazonais está selecionado como default o método X12 Sugerese fortemente seu uso4 Na opção Trend Filter o leitor poderá notar que o default é deixar o EViews R determinar quantos termos serão utilizados nas médias móveis para extrair a tendência Em Component Series to Save podese especificar o nome da série que será salva além de outros seis componentes A primeira opção retorna a serie ajustada sazonalmente Além disso a aplicação do filtro X12 permite que se tenha a informação de três importantes características dos dados os fatores sazonais a tendência cíclica o componente irregular Nos dois últimos estão as opções de ajuste dos fatores ao efeito calendário de dias de negociação no mercado ou para feriados Esses estão definidos no EViews R para os feriados dos EUA e páscoa no Canadá Quando aplicados duas opções são selecionadas abre outras opções na aba Trading DayHoliday Há três outras abas com diferentes opções Em Outliers podemos especificar se em determinada data haverá um outlier Na opção ARIMA Options escolhemos se há ou não transformação dos dados se teremos repressores exógenos ou se queremos usar alguma amostra de dados na estimativa Por fim na aba Diagnostics podemos pedir para que seja feita uma análise da sazonalidade e que seja mostrado o diagnóstico dos resíduos detecção de outliers ou gráficos Na aba Seasonal Adjustment vamos selecionar o método multiplicativo selecionando as quatro opções de componentes como mostra a figura 56a e então clique em Ok Não esqueça de mudar o nome base para ibcbr2 para que a nova estimativa não apague a anterior Ao fazer a dessazonalização o EViews R retorna uma página com diversas descrições do processo implementado Essa pode ser fechada sem prejuízo da análise futura ou então salva com clicando em Freeze Ao voltar para a página do workfile poderá ver que foram criadas quatro novas séries de dados todas com o nome da série original mais os termos que representam cada uma dos componentes No nosso caso ibcbr2sa ibcbr2sf ibcbr2tc ibcbr2ir A figura 56b mostra a evolução do fator sazonal para a série qx Note que o mesmo não é constante ao longo do tempo sugerindo que a correção pela sazonalidade deve preservar essa diferença Esse fator sazonal pode então ser utilizado para dessazonalizar os dados originais Para tanto no workfile clique em GenrGenerate Series by Equation Essa opção abre uma janela e permite que 4O método X12 ARIMA é melhor do que o X11 e incorpora diversos pontos interessantes como por exemplo a possibilidade de detectar outliers mudanças no padrão sazonal mudanças de nível na série melhor para tratar com séries de dados com falhas de informação efeito calendário e testes de diagnóstico 51 Ajuste Sazonal 83 a Ajuste sazonal X12 b Fator sazonal ibcbrsf Figura 56 Gráfico da Sazonalidade Método X12 multiplicativo Figura 57 Gerar série por equação se crie uma série nova a partir de outras existentes Vamos usar um nome teste para representar essa dessazonalização tal como mostrado na Figura 57 onde vamos dividir a série original pelo fator sazonal teste ibcbr ibcbr2s f A seguir clique em Ok e confira os dados com os obtidos em ibcbrsa O leitor poderá ver que são idênticos Os dois outros componentes são a tendência cíclica descrito como ibcbrtc e o componente irregular ibcbrir cujos gráficos estão dispostos na figura 58 Note que juntamente com os mesmos foi escolhida a opção Kernel density em Axis borders Isso ajuda a compreender como os dados estão distribuídos possibilitando observar que os resíduos do modelo X12 ARIMA possuem distribuição normal tal como esperado De forma geral o que obtemos aqui é uma decomposição da nossa série original em 3 impor tantes fatores i fator sazonal ii tendência cíclica iii componente irregular Assim também podemos obter a série original a partir desses 3 fatores basta fazer ibcbr ibcbrsf ibcbrtcibcbrir Nesse caso escolhemos um nome para essa nova série teste e construímos uma fórmula para ela a partir da multiplicação dos três componentes anteriores A seguir o leitor poderá ver que foi criada uma série de nome teste no workfile Além de determinar os componentes de uma série de tempo o EViews R também faz a correção sazonal dos dados como o leitor pode ver no workfile a partir da série ibcbr2sa Essa é obtida dividindose a série original pelo seu fator sazonal ibcbr2sat ibcbr2t ibcbr2s ft 84 Capítulo 5 Séries de tempo a Tendência cíclica ibcbrtc b Componente irregular ibcbrir Figura 58 Gráfico dos componentes da série ibcbr Figura 59 Gerar série por equação Programação 512 O método de dessazonalização X12 possui muitas opções A forma mais básica pode ser aplicada como a seguir seguindo o exemplo utilizado para as médias móveis Assim usamos um procedimento para aplicar tanto o método das médias móveis quanto o X12 a várias séries ao mesmo tempo Abra o mesmo programa de antes e agora acrescente o termo para a dessazonalização pelo X12 Depois vá ao arquivo original e rode o mesmo for a qx y px pm qm seasm a asa asf ax12modem filtermsr save d10 d11 d12 ax12 next Nesse caso usamos o método multiplicativo se quiser usar o método aditivo mude de m para a como filtro selecione o X12 e salvamos respectivamente os fatores sazonais d10 as séries ajustadas sazonalmente d11 e a tendência cíclica d12 Ao final o termo a serve para usar o nome da série como nome base Por exemplo quando o programa estiver aplicando a dessazonalização para a série qx irá salvar a série de fatores sazonais como qxsf Uma alternativa de dessazonalização é via método aditivo Nesse caso também podemos selecionar a opção de obter os três fatores i fator sazonal ii tendência iii componente irregular além da série ajustada sazonalmente Algumas diferenças de resultado aparecerão entre o método multiplicativo e aditivo como por exemplo o fator sazonal e o irregular Mas a série ajustada sazonalmente irá produzir resultados semelhantes Porém ao invés de dividir a série original pelo seu fator sazonal como feito no método multiplicativo agora diminuímos a mesma de seu fator sazonal 51 Ajuste Sazonal 85 a Ajuste sazonal X12 b Fator sazonal qxadsf Figura 510 Gráfico da Sazonalidade Método X12 aditivo Programação 513 Como forma de complementar a análise das séries quando se tem mais de uma pode ser mais útil agrupar as mesmas Nesse caso recorremos ao comando group como mostrado abaixo onde agrupamos todas as séries ajustadas sazonalmente no seu banco de dados feitas anteriormente em um grupo de nome ajustada group ajustada qxx12sa pxx12sa pwx12sa prx12sa yx12sa Para ver como isso ocorre repita os passos anteriores mas escolha o método aditivo Para que as séries salvas sejam diferentes das anteriores use um subíndice ad tal como mostrado na figura 510a Note que o resultado do fator sazonal oscila em torno do valor zero ao invés de oscilar em torno de 1 como no método multiplicativo mas o resultado é o mesmo A seguir use ibcbr2adsat ibcbr2t ibcbr2adsft Para encontrar a série ajustada sazonalmente Por fim para obter a série original não multiplicamos os três fatores tal como no caso do método multiplicativo e sim somamos os mesmos ibcbr2t ibcbr2adsft ibcbr2adtct ibcbr2adirt Há diversas opções que o EViews R permite aplicar no ajuste sazonal Em especial e muito comum para o Brasil seria um ajuste que considerasse os feriados Apesar de disponibilizar essa opção em Trading dayHoliday a mesma está formatada para feriados nos EUA Programação 514 O gráfico do fator sazonal para cada uma das séries do seu banco de dados pode ser solicitado Nesse caso usamos o objeto graph Como queremos um gráfico de linha usamos o comando line Por fim é especificada a série que será feito o gráfico Nesse caso ax12sf for a qx y px pm qm seasm a asa asf ax12modem filtermsr save d10 d11 d12 ax12 graph gra ax12line ax12sf next 86 Capítulo 5 Séries de tempo Programação 515 Alternativamente podemos estar interessados em avaliar como fica cada uma das séries ajustadas sazonalmente a partir de dois diferentes métodos Nesse caso aplicamos o método das médias móveis e depois o X12 Em ambos fazemos tanto a sazonalidade aditiva quanto multiplicativa A seguir é calculada a correlação entre as séries ajustadas sazonalmente e o resultado é armazenada em uma tabela de nome correl scalar sum1 table34 correl correl21aditivo correl31multiplicativo correl12ctotal correl13preco correl14renda for a qx y px pm qm seasa a aasa aasf seasm a amsa amsf ax12modea filtermsr save d10 d11 d12 aa ax12modem filtermsr save d10 d11 d12 am correl2sum1coraasaaasa correl3sum1coramsaamsa sumsum1 next 514 Método Census X13 Esse é um dos mais novos métodos de dessazonilização disponível e que foi desenvolvido pelo US Census Sua aplicação deve ser feita apenas para dados mensais ou trimestrais sendo necessário ter ao menos três anos completos de dados Com a série de dados ibcbr aberta clique em viewseasonal adjustmentcensos x13 A caixa de diálogo que aparece como mostrado na Figura 511 permite especificar aspectos da variável como alguma transformação que tenha sido feita do tipo log ou logit determinar o modelo ARIMA escolher o método de ajuste sazonal e os resultados a serem mostrados A opção X13 built in regressors permite inserir uma constante no modelo sazonalidade via dummy ou trigonometricamente especificar os dias de negociação determinar os feriados ou escolher o tipo de outlier que pode ser usado no processo de estimativa A seguir podemos especificar em Userdefined regressors se queremos usar alguma variável exógena para melhorar o modelo proposto Na opção ARIMA podemos escolher o tipo de modelo caso se tenha um conhecimento prévio selecionando a opção manual Nesse caso os parâmetros são p d qP D Q com as letras minúsculas representando o componente ARIMA e as letras maiúsculas os componentes sazonais Por exemplo a série do PIB trimestral do IBGE para serviço de informação tem uma decomposição dos componentes do modelo ARIMA aditivo e dado da forma 011011 Já a série da indústria de transformação tem um método aditivo do tipo 210011 mas com três intervenções dummy AO 19963 representa uma dummy aditiva no mês de março de 1996 LS 20084 é dada por uma dummy do tipo levelshift mudança no nível no mês de abril de 2008 TC 20091 é uma dummy definida como constantlevelchange ou seja uma mudança no nível em janeiro de 2009 Todas essas intervenções podem ser facilmente inseridas via X13 built in regressors juntamente com ARIMA model e escolhendo manual e colocando 210011 Logo abaixo da opção manual está a opção X11 Auto Nessa o EViews R irá estimar todos os modelos que estão especificados na lista você pode inserir mais opções e modificar as opções de escolha Uma opção interessante é fazer a especificação with limits que irá estimar 51 Ajuste Sazonal 87 Figura 511 Opções do Método X13 todas as possíveis combinações de modelos com AR MA e D especificadas Veremos um exemplo mais a frente Por fim temos a opção TRAMO Auto que permite a escolha o modelo ARIMA e diferenciação máximos A seguir temos as opções de estimação do modelo ARIMA onde escolhemos os critérios e o período a ser utilizado Na opção ARIMA forecast podemos usar o melhor modelo encontrado para prever dados futuros com base em suas características encontradas Na opção Seasonal Adjustment podemos escolher o método de ajuste sazonal entre x11 ou SEATS Se escolher none não será feito nenhum ajuste sazonal na série sendo apenas escolhido o melhor modelo ARIMA A última escolha é para Output onde selecionamos os resultados a serem mostrados Note os códigos das séries resultantes D11 dados ajustados sazonalmente D12 tendência D10 fator sazonal D13 componente irregular Vejamos como usar essas opções do x13 na série do ibcbr Abra a mesma e clique em Proc Seasonal Adjustment Census X13 Nas opções Variables vamos deixar como default ou seja os dados não possuem transformação transform option não é feita intervenção no X13 built in regressors não usamos variável exógena e por fim não usamos Automatic outliers Como primeiro passo vamos investigar qual seria o melhor modelo ARIMA para descrever a sazonalidade de ibcbr Na opção ARIMA Model selecione TRAMO Auto tal como mostrado na Figura 512 Após clicar em OK será produzido um relatório de resultados Sugiro fortemente olhar o relatório pois ali irá constar as características do melhor modelo final selecionado que é da forma 311011 Esse processo convergiu após 64 iterações tendo sido investigadas 415 funções Os coeficientes estimados e os erros padrão também são fornecidos bem como alguns critérios que são utilizados para comparar modelos como AIC BIC e HannanQuinn veremos isso mais a frente Como não fizemos nenhuma seleção adicional o EViews R irá retornar a série ibcbrd11 que descreve os dados ajustados sazonalmente Para ver os demais resultados das séries vá em output e escolha D12 D10 e D13 Uma opção interessante é tentar identificar se existe outlier ou não no modelo ARIMA Com a série ibcbr aberta selecione X13 e na opção Automatic outliers clique em Temporary change TC Mantenha todo o período amostral e o processo de seleção One at a time como mostrado na Figura 513a A seguir em ARIMA Model clique em manual e especifique o modelo 311011 tal como na Figura 513b Por fim em Output selecione todas as opções e clique 88 Capítulo 5 Séries de tempo Figura 512 Métodos ARIMA em X13 a Automatic outliers b ARIMA Model Figura 513 Identificação de outliers em OK Na página de resultados são mostradas as estimativas para o outlier do tipo TC Primeiro veja o valor crítico t 391 A data com o resultado do tvalor mais alto é dezembro2008 com t 360 Note que esse resultado fica dentro do intervalo de confiança especificado 391 t 391 e com isso aceitamos a H0 de não existência do outlier do tipo TC Dado que ele não é significativo as estimativas seguintes são testes sem a presença do outlier 515 Alisamento Exponencial Esse recurso é muito útil para fazer previsões especialmente para séries de dados de curta pe riodicidade e com a vantagem de que seus coeficientes são atualizados a cada momento não permanecendo fixos ao longo do processo5 Há dois tipos de alisamento disponíveis noEViews R o SES Simple Exponential Smoothing e o ETS Exponential Smoothing Vamos exemplificar seu uso com a série de dados qx que tem periodicidade trimestral Com a série qx aberta selecione ProcExponential Smoothing Simple Exponential Smoothing Como mostra a figura 514 o EViews R permite que se escolha dentre 5 diferentes opções de 5Porém no processo de previsão os mesmos tornamse fixos 51 Ajuste Sazonal 89 Figura 514 Alisamento exponencial da série qx método para se fazer o alisamento exponencial Além de selecionar o método o leitor também tem a opção de determinar os parâmetros a serem utilizados ou então deixar a letra E para que o EViews R estime os mesmos Valores próximos a zero significam que informações passadas são importantes para determinar o futuro Ao passo que valores mais próximos de 1 representam um comportamento tipo random walk onde apenas a última informação é útil para prever o futuro Recomendase deixar o EViews R estimar o valor dos parâmetros Na tabela 51 está uma descrição das equações e aplicações desses diferentes métodos Tabela 51 Diferentes métodos de alisamento exponencial Método Equação Aplicação Simples ˆyt αyt 1αˆyt1 Em séries sem constante ten dência ou sazonalidade Duplo ˆyt αyt 1αˆyt1 ˆDt α ˆyt 1α ˆDt1 Melhor para séries com ten dência linear Aplica o mé todo simples duas vezes Holtwinters sem sazonali dade ˆytk α tk Útil para séries com tendência linear e sem sazonalidade Holtwinters mult ˆytk α tkctk Útil para séries com tendência linear e sazonalidade multipli cativa Holtwinters adit ˆytk α tk ctk Útil para séries com tendência linear e sazonalidade aditiva Nota o termo α é o parâmetro de alisamento t é a tendência e c a sazonalidade Do lado direito da janela que será aberta o EViews R sugere um nome para a série alisada qxsm Logo abaixo tem o período de especificação da amostra Se deixarmos como data final 2015Q4 o EViews R irá fazer a previsão a partir desse ponto O problema com essa escolha é que após feita a previsão não há informação verdadeira para comparar com essa previsão Portanto se o objetivo é apenas prever tudo bem podemos usar como data a última observação Por outro lado se o objetivo é testar essa previsão o melhor seria determinar uma data anterior ao final reservando dados para comparação Por fim tem a opção do Cycle for seasonal Note que para esse exemplo temos o número 4 que representa a quantidade de trimestres no ano Se os dados forem mensais o EViews irá retornar o número 12 Caso o leitor tenha dados sem periodicidade ou então dados diários do mercado financeiro pode escolher um número diferente Como exemplo vamos estimar cada um dos cinco métodos para a série qx Para o primeiro método selecionamos a série de resultado como qxsm1 Para o segundo método qxsm2 e assim sucessivamente Além disso vamos deixar quatro trimestres de dados para comparar com as previsões digitando como data final em estimation sample 2014q4 Os resultados são mostrados na tabela 52 Tabela 52 Resultados do alisamento exponencial para qx Simples Duplo Holtwinters sem sazonalidade Holtwinters adit Holtwinters mult Parameters Alpha 09990 04680 10000 10000 10000 Beta 00100 00000 00000 Gamma 00000 00000 Sum of Squared Residuals 29633370 30606500 24138800 13531410 13397440 Root Mean Squared Error 64154 65199 57902 43352 43136 End of Mean Period Levels 877719 878750 877700 874709 868356 Trend 09136 10562 06047 06047 Seasonals 2014Q1 42175 09429 2014Q2 08709 10105 2014Q3 30475 10358 2014Q4 02991 10108 Note que o coeficiente α varia de um valor mínimo de 048 a um máximo de 1 sinalizando que as informações passadas são úteis para prever o comportamento futuro O valor zero para o parâmetro beta e gamma indicam que os mesmos foram constantes Por exemplo para o modelo simples temos ŷt 0999yt 1 0999 ŷt1 Também são fornecidas duas estatísticas de previsão que podem ser utilizadas para comparar os diferentes modelos SSR soma do quadrado dos resíduos 6 RMSE raiz do erro quadrado médio 7 Comparando essas para os cinco modelos podemos ver que praticamente não há diferenças entre o HoltWinters aditivo e o multiplicativo e que ambos são os melhores modelos de previsão Os valores de média e de tendência fornecidos 6 SSR t1n y ŷ2 7 RMSE t1n y ŷ2n 51 Ajuste Sazonal 91 para o fim do período são usados para fazer a previsão bem como a estimativa da sazonalidade A figura 515 mostra o comportamento da estimativa entre 1997Q1 e 2014Q4 e também da previsão para os quatro trimestres à frente 2015Q1 a 2015Q4 usando esses cinco métodos juntamente com o resultado de verdadeiro de qx a Previsão dos dados b Valores previstos Figura 515 Alisamento exponencial da série qx Note que pelo método mais simples que não considera a presença de tendência e sazonalidade as previsões são constantes e refletem exatamente o valor da média 877719 obtido para o último período da estimativa 2014Q4 Já o método Duplo tem a influência de uma tendência de valor 10167 Nesse caso o resultado para a primeira previsão é dado por duplo2015q1 média tendência duplo2015q1 87875009136 887886 No segundo momento a previsão passa a diferir apenas na magnitude da tendência Ou seja usase a estimativa da média do momento anterior e com base nela é somada a tendência Assim a previsão do próximo trimestre é dada por duplo2015q2 88788609136 897022 Ou então duplo2015q2 878750209136 897022 E assim sucessivamente para mais períodos a frente duplo2015q3 878750309136 906159 No modelo HoltWinters sem sazonalidade também há dois resultados para se fazer a previsão a média e a tendência E basta fazer a previsão para os trimestres a frente como fizemos no método duplo Porém os dois últimos métodos contemplam a presença da sazonalidade Nesse caso as previsões devem considerar essa influência em seus respectivos trimestres Por exemplo no HoltWinters aditivo a previsão para 2014Q1 é dada pela soma da média da tendência e também da sazonalidade do primeiro trimestre HWaditivo2015q1 média tendência sazonalidade2014q1 HWaditivo2015q1 8747090604742175 838581 Na previsão do segundo trimestre multiplicamos a tendência por 2 e aplicamos a sazonalidade de 2015q2 HWaditivo2015q2 média2tendênciasazonalidade2014q2 92 Capítulo 5 Séries de tempo HWaditivo2015q2 87470920604708785 895513 E assim sucessivamente sempre aplicando um multiplicador para a tendência e considerando o fator sazonal do respectivo trimestre que está sendo feita a previsão Por exemplo se quisermos fazer essa previsão para 6 trimestres à frente usamos HWaditivo2016q2 87470960604708785 919701 Por fim temos o método HoltWinters multiplicativo Nesse caso a sazonalidade é multiplicativa e fazemos a previsão para 2015Q1 da seguinte forma HWmultiplicativo2015q1 média tendênciasazonalidade2014q1 HWmultiplicativo2015q1 8683560604709429 824517 Para prever o segundo trimestre multiplicamos a tendência por 2 e consideramos a sazonalidade de 2015q2 HWmultiplicativo2015q1 média 2tendênciasazonalidade2014q1 HWmultiplicativo2015q1 86835620604710105 889725 Programação 516 O método de alisamento exponencial permite que sejam escolhidas cinco diferentes alternativas sdnam e que seguem respectivamente as opções de escolha entre os modelos simple duplo Holtwinters no seasonal Holtwinters seasonal aditivo e por último o multiplicativo Para usar o método multiplicativo em uma única série de dados como por exemplo qx deixando que os parâmetros sejam estimados usamos qxsmoothmeee qxsm1 Alternativamente dando sequencia ao programa anterior podemos determinar que o ali samento exponencial seja feito para uma sequencia de séries de dados Nesse caso apenas acrescentamos ao nosso programa a opção abaixo for a qx y px pm qm seasm a asa asf ax12modem filtermsr save d10 d11 d12 ax12 graph gra ax12line ax12sf asmoothmeee asm1 next Alternativamente para uma única série de dados podemos ver como se comportam as previsões a partir dos cinco diferentes métodos de alisamento exponencial Nesse caso usando a série qx de exemplo o loop pode se modificar para for a s d n a m smoothaeee qx qxa next Ou então podemos pedir que os cinco métodos sejam aplicados para cada uma das séries de dados que temos Nesse caso podemos usar um comando for dentro de outro comando for 52 ETSERRORtrendseasonal 93 for b qx y px pm qm for a s d n a m smoothaeee b ba next next Programação 517 Alternativamente podemos fazer os cinco diferentes métodos de alisa mento exponencial para cada uma das séries de dados e a seguir armazena o resultado do RMSE em uma tabela de nome alisa table64 alisa alisa21single alisa31doble alisa41no seas alisa51HWno seas alisa61HWseas alisa12ctotal alisa13preco alisa14renda scalar sum1 scalar numero1 for b ctotal preco renda for a s d n a m smoothaeee b balisaa alisasum1numero1rmsebbalisaa sumsum1 next numeronumero1 scalar sum1 next 52 ETSERRORtrendseasonal Os modelos ETS são bem mais complexos e eficientes que a proposta anterior ES e se diferenciam por incorporar o erro de previsão do passo anterior para melhorar a estimativa no momento presente Aqui a ideia é decompor a série de dados em três componentes T tendência S sazonalidade e I componente irregular ou resíduo Tal como visto anteriormente nos métodos de dessazonalização aqui podemos ter modelos aditivos e multiplicativos ou então combinados totalizando 30 diferentes tipos de modelos Em resumo temos Modelo aditivo puro y T SI Modelo multiplicativo puro y T SI Modelo misto y T SI Modelo ANN Vejamos como é o modelo mais simples de todos dado por A N N erro aditivo sem tendên cia sem sazonalidade aplicado ao IBCBr Para estimálo abrimos a série ibcbr e vamos em Proc Exponential Smoothing ETS Exponential Smoothing abrindo a caixa de diálogo apresentada Figura 516a a qual também já apresenta as configuração utilizadas para o modelo mais simples O resultado é tal como mostrado na figura 516b De forma geral teremos que 94 Capítulo 5 Séries de tempo a Especificações do ETS Smoothing b Resultado do ETS Smoothing Figura 516 ETS Smoothing Simples ˆyt ˆyt1 αεt1 Dito de outra forma nossa previsão é corrigida pelo erro de previsão do passo anterior Ali temos a estimativa do parâmetro x0624931 e o valor inicial de 9765847 Logo abaixo temos diversas estatísticas de comparação de modelos Você deve estar se perguntando de onde vem esse valor inicial E o alfa Aqui começamos a ter o primeiro contato com o processo de maximização em série de tempo e iteração Para começar o modelo precisamos de um valor inicial a semente e um valor de x O valor inicial é para representar a previsão do primeiro mês que no nosso exemplo é de y19615 O valor de α é para encontrar a evolução da nossa estimativa Suponha um valor inicial de ˆy1 976584 Com esse encontramos um erro de previsão ε de y1 ˆy1 ε1 96159765 1508 Considerando α 06249 podemos fazer ˆy2 αy1 1αˆy1 ˆy2 06296150389765 9671 Como podemos prever o momento ˆy2 Precisaremos do valor de α Veja que para prever o passo atual usamos a informação verdadeira em t 1 e a estimada ou então a previsão em t 1 pode ser encontrada aplicando ˆy2 ˆy1 αε1 ou ˆy2 9765 0621508 Agora podemos encontrar o erro de previsão no passo 2 ε2 da mesma forma que antes ε2 y2 ˆy2 98679671 1954 ou então usando o erro de previsão anterior ˆy3 ˆy2 αε2 9671062195 9793 52 ETSERRORtrendseasonal 95 Figura 517 Previsão simples no modelo ETS Fazemos isso sucessivamente e encontraremos diversos erros de previsão Esses são utilizados para encontrar as estatísticas SSR RMSE e AMSE bem como o valor do log verossimilhança veremos isso mais a frente Porém o que garante que o valor inicial que usamos 9765 e o α 0624931 produzem o melhor modelo Automaticamente no processo de iteração são testadas combinações de diferentes valores iniciais com diferentes valores deα até que se encontre aquele que gera o menor erro Esse é o produto final mostrado nas estimativas Agora vamos ver como fica a previsão n passos a frente ˆy2016M2 αy2016M1 1αˆy2016M1 0621279203813520 1306514 Daí em diante como não há mais valor conhecido a previsão será dada por ˆy2016M3 y2016M2 1306514 E nosso gráfico de previsão é tal como mostrado na Figura 517 Modelo MAN Esse modelo também é conhecido como método de holt com erros multiplicativos e uma tendência aditiva Na caixa de diálogo do ETS Smoothing selecionamos Multiplicative em Erros Innovation type Additive em Trand Type e deixamos None em Seasonal Type conforme a Figura 518a A Figura 518b apresenta os resultados desse modelo Note que agora temos um parâmetro adicionalβ e valor inicial para a tendência em 0312577 Todas as demais estatísticas de comparação são como antes Com a incorporação da tendência a previsão no momento t fica da forma ˆyt ˆyt1 Tt1αεt1 Quando a taxa de crescimento do componente tendência for zero ou seja β 0 O valor inicial estimado para a tendência é T 0312577 e o valor do nível inicial é 9744160 Sendo assim nosso valor inicial é dado por ˆy1 N1 T1 9744160312577 977541 Como temos uma tendência essa deve ser incorporada na previsão dos passos seguintes e também devemos usar o erro de previsão do passo anterior para melhorar o modelo no passo 96 Capítulo 5 Séries de tempo a Especificações do ETS Smoothing MAN b Resultado do ETS Smoothing MAN Figura 518 ETS Smoothing MAN Figura 519 Gráfico da previsão conforme a especificação MAN seguinte Sendo assim nossa previsão para o passo dois é dada por ˆy2 ˆy1 T1αε1 9775031250541604 972003 Com essa estimativa encontramos o erro de previsão no passo dois ε2 y2 ˆy2 98679720 147 que será útil para corrigir a previsão no passo três Fazemos isso até a última observação A partir de então a previsão passa a evoluir de acordo com a tendência como mostra a Figura 519 52 ETSERRORtrendseasonal 97 a Especificação do ETS Smoothing MAM b Resultado do ETS Smoothing MAM Figura 520 ETS Smoothing MAM Modelo MAM Esse é o descrito pela presença de erro multiplicativo tendência aditiva e sazonalidade multiplicativa Com a série ibcbr aberta selecione ETS e depois as opções como mostrado na Figura 520a Note que agora abre a opção de especificação cíclica Como estamos com dados mensais temos um valor cycle12 Os resultados agora possuem estimativa de 3 parâmetros αβγ O primeiro para atualização do erro de previsão o β para a tendência e o γ para a sazonalidade Logo abaixo estão os valores iniciais para o nível a tendência e os 12 estados cada qual representando um mês ver Figura 520b O valor inicial estimado corresponderá à soma de valor do nível da tendência e como temos uma sazonalidade multiplicativa essa soma é multiplicada pelo respectivo estado que corresponde ao mês anterior ˆy1 N1 T1St1 10101840337209503 96322 Como o primeiro mês é janeiro usamos estado dezembro 0950338 Lembrese que esses valores de estado correspondem aos fatores sazonais vistos anteriormente Com base em ˆy1 podemos determinar o erro de previsão no primeiro passo usando ε1 y1 ˆy1 96159632 0172 98 Capítulo 5 Séries de tempo A seguir para prever o passo seguinte usamos o erro de previsão do passo anterior o valor de α e como β 0021679 temos que considerar a taxa de crescimento da tendência O gráfico de previsão pode ser visto na Figura 521 Figura 521 Gráfico da previsão conforme a especificação MAM 53 Ciclo Outra característica observada nas séries de tempo é o componente cíclico Ct Entender como é o comportamento cíclico de uma série de tempo tem sido objeto de estudo com aplicações principalmente na macroeconomia Há diversas técnicas paramétricas e não paramétricas que foram desenvolvidas para esse fim A seguir são apresentados os diferentes filtros disponíveis no EViews R para a estimar a tendência de longo prazo e ciclo 531 Filtro HodrickPrescott Esse é mais conhecido como filtro HP em referência a seus autores ver Hodrick e Prescott 1997 e é usado para estimar o componente de tendência de longo prazo de uma série de tempo Sua estimativa considera a escolha de um parâmetro que irá determinar o grau de aderência dessa tendência à série de tempo Quanto maior for mais linear tornase a tendência de longo prazo estimada Essa técnica de extração do componente cíclico é do grupo das que são aplicadas no domínio do tempo Com a série qx aberta selecione ProcHodrickPrescott Filter O filtro produz duas estimativas uma para a série filtrada ou seja a estimativa de tendência de longo prazo e uma outra para o ciclo que é a diferença entre a série original e filtrada Escolha um nome para cada uma das opções No nosso exemplo escolhemos qxhp e qxciclo A seguir estão as opções de escolha para o parâmetro de alisamento Como default é feita a sugestão com base em Hodrick e Prescott 1997 que leva em conta a periodicidade dos dados Como temos dados trimestrais sugerese usar 1600 Outra alternativa é determinar o valor de com base em Ravn e Uhlig 2002 escolhendo a potência Ao escolher a opção de 1600 duas séries de dados serão salvas no workfile qxhp e qxciclo É simples o leitor confirmar como que se obtém a série de ciclo basta fazer qxciclo qxqxhp Ou seja o ciclo representa a diferença da série original em relação a sua tendência de longo prazo e o resultado de qxciclo é muitas vezes visto como gap Valores acima de zero significam que estamos acima da tendência de longo prazo No caso de usar o PIB esse seria um exemplo de produção acima do potencial uma informação útil para avaliação de conjuntura e que o leitor interessado pode ver em relatórios de bancos corretoras e também do Banco Central Por outro lado valores abaixo de zero são indicações de que estamos abaixo da tendência de longo prazo 53 Ciclo 99 Na figura 522 estimamos três tendências de longo prazo para diferentes valores de λ i λ 0 nome qxhp1 ii λ 1600 nome qxhp iii λ 100000 nome qxhp2 Como pode ser visto para um valor de λ 0 a tendência de longo prazo é igual à série em questão linha azul No valor sugerido de de λ 1600 a tendência de longo prazo oscila um pouco linha verde Por fim para um valor muito alto λ 100000 a tendência de longo prazo se aproxima de uma reta Figura 522 Filtro HP aplicado a qx Um ponto interessante que o leitor poderá notar é que ao se escolher como parâmetro de alisamento a alternativa de Ravn e Uhlig2002 mas deixando o valor 2 em power os resultados serão idênticos ao aplicado o parâmetro λ 1600 sugerido por Hodrick e Prescott1997 Programação 531 O método de HodrickPrescott também pode ser aplicado a partir de uma programação Nesse caso usamos qxhpflambda1600 qxhp qxciclo Entre parênteses é colocado o lambda e o valor que se pretende para o parâmetro Nesse exemplo escolhemos 1600 A seguir estão os nomes das duas séries que serão geradas a primeira é o componente de tendência de longo prazo e a segunda o componente cíclico Note que nessa função é exigido que se tenha antes do nome da segunda série de dados Seguindo a mesma linha de raciocínio podemos juntar em uma única função a dessazonalização dos dados o alisamento exponencial e a aplicação do filtro HP a partir de for a qx y px pm qm seasm a asa asf ax12modem filtermsr save d10 d11 d12 ax12 asmoothmeee asm1 ahpflambda1600 ahp aciclo next Programação 532 A OECD2008 em suas análises de ciclo e construção de indicadores an tecedentes e coincidentes sugere a utilização de dupla filtragem pelo método de HodrickPrescott para extração do ciclo de crescimento Primeiramente é feita uma filtragem ajustando um λ de alto valor para extrair a tendência de longo prazo Para então com um λ menor extrair os movimentos de alta frequência e alizar o ciclo Desta forma a OECD extrai o componente cíclico dentro de uma banda de frequência de 12 a 120 meses que corresponde respectivamente ao 100 Capítulo 5 Séries de tempo λ2 1393 e λ1 13310794 scalar lambda1 13310794 scalar lambda2 1393 for a qx ahpflambdalambda1 ahptrend1 ahpciclo1 ahpciclo1hpflambdalambda2 ahptrend2 ahpciclo2 genr achp ahptrend2meanahptrend2 stdevahptrend2 100 next Note que em primeiro lugar definimos o valor dos λ1 e λ2 dentro das variáveis de nome lambda1 e lambda2 pelo comando scalar Isso facilita visualmente na hora de reescrever a programação para testar diferentes lambdas Em seguida declaramos um loop onde indicamos que a tomará os valores de qxEntão utilizando duas vezes o comando hpf aplicamos o filtro HP com os lambdas definidos anteriormente Além de rodarmos a dupla filtragem padronizamos o ciclo e adicionamos média 100 conforme sugerido OECD2008 A programação pode incluir diversas séries e testes abaixo trazemos um exemplo da dessazonalização pelo método X12 multiplicativo seguido da extração do ciclo de crescimento sugerido em OECD2008 scalar lambda1 13310794 scalar lambda2 1393 for a qx y px pm qm ax12modem filtermsr save d10 d11 d12 asa asahpflambdalambda1 ahptrend1 ahpciclo1 ahpciclo1hpflambdalambda2 ahptrend2 ahpciclo2 genr achp ahptrend2meanahptrend2 stdevahptrend2 100 next A dupla filtragem aproxima o filtro HP aos BandPass filters mostrados a seguir 532 Filtros de Frequência Também conhecidos como BandPass filter é um filtro linear que extrai o componente cíclico de uma série de tempo a partir de um intervalo de duração do mesmo Aqui a análise é feita no domínio da frequência e a série de tempo é representada a partir de uma soma ponderada de oscilações seno e cosseno Sendo assim a questão é como encontrar essa matriz de pesos que será aplicada à série de dados Há vários métodos de aplicação do filtro O que irá diferenciálos é a forma de cálculo das médias móveis São três alternativas As duas primeiras consideram um filtro simétrico e são diferentes apenas na forma como a função objetivo estima os pesos das médias móveis Ao selecionar um desses dois métodos e escolher os Leadlags referese ao comprimento da frequência do ciclo é importante ter em mente que são perdidos os dados do início e fim da série para que seja feita a estimativa Destacase que o comprimento da frequência do ciclo fica constante durante toda a série de dados por isso que esse é um filtro de comprimento fixo O terceiro filtro de nome ChristianoFitzgerald é assimétrico com as ponderações sendo diferentes no tempo e se comportando de acordo com os dados O fato de ser um filtro que é variante no tempo o torna mais completo para se determinar os ciclos de uma série Nesse caso não é necessário especificar o comprimento da frequência do ciclo Com a série qx aberta vá em ProcFrequency Filter e aparecerá uma tela para selecionar as opções do filtro Escolha o primeiro deles Baxterking A seguir do lado direito a opção Leadlags referese ao comprimento da frequência com que ocorre o ciclo Vamos deixar o valor 12 Isso irá resultar na perda de informação do ciclo 12 trimestres antes e 12 trimestres depois reduzindo a estimativa para apenas 36 trimestres A parte do Cycle periods se refere à duração do ciclo Como default o EViews retorna o valor Low6 e High32 Ou seja o ciclo de menor duração tem 6 trimestres e o de maior duração 32 trimestres Depois escolha os nomes para os resultados como mostrado na Figura 523 Do lado esquerdo está a escala para a série qx e qxbp esse sendo o componente de longo prazo 121 smpl 2000M1 2015M7 equation eq1ls qxsa ywsa c matrix100 coef coef100eq1coefs1 matrix100 explicado explicado100eq1r2 for i1 to 99 smpl 2000M1i 2004M12i equation eq2ls qxsa ywsa c coefieq2coefs1 explicadoieq2r2 next smpl all Veja que o valor do R² é obtido usando o comando r2 logo depois do nome da equação nesse exemplo eq1 e eq2 Caso queira determinar a série de valores do R² ajustado use rbar2 A seguir na tabela com o resultado da regressão há a informação do desvio padrão da regressão ou então SE of regression Seu resultado é dado de forma direta a partir do conhecimento da variância dos resíduos visto anteriormente Ou seja como a média dos resíduos é igual a zero é 0 a variância pode ser encontrada a partir de No nosso exemplo s 14034 O comando para obter esse valor é dado por scalar desvio eq1se A estatística seguinte mostrada na tabela de resultados é a log likelihood ou então o log da verossimilhança onde os erros são avaliados supondose uma distribuição normal a partir de Para os dados do nosso exemplo temos que T 187 e sendo assim O comando no EViews para determinar o valor do log da verossimilhança é dado por scalar logver eq1logl A seguir está a estatística F Essa tem como objetivo testar se todos coeficientes das variáveis independentes no modelo em conjunto são estatísticamente iguais a zero Esse teste não inclui a constante É usada a seguinte fórmula geral para o teste 102 Capítulo 5 Séries de tempo Figura 524 Função resposta de frequência BaxterKing Programação 533 Podemos fazer a estimativa do filtro BaxterKing via programação Nesse caso a função utilizada é dada por qxbpftypebk low6 high32 lag12noncycqxbpfciclowwqxbp qxbpf Dentre as várias opções que podem ser especificadas o termo typebk referese ao filtro BaxterKing Se quiser escolher o filtro ChristianoFitzgerald fixo coloque typecffix e para o filtro assimétrico use typecfasym A seguir está o período mínimo do ciclo e o máximo Depois a série de dados ajustada pelo ciclo Por fim podemos selecionar os resultados a serem mostrados Ainda no conjunto de opções podemos escolher o nome da série ajustada pelo ciclo a partir de noncycqxbpfciclo Podemos especificar a matriz de pesos do ciclo usando weightwqxbp A seguir colocamos o nome da série do ciclo qxbpf Se o nome da série do ciclo qxbpf for omitido o EViews R irá criar uma série de nome BPFILTER01 Assim é possível agregar essa estimativa às anteriores a partir de for a qx y px pm qm seasm a asa asf ax12modem filtermsr save d10 d11 d12 ax12 asmoothmeee asm1 ahpflambda1600 ahp aciclo abpftypebklow6high32noncycabpfciclowwabp abpf next O segundo filtro simétrico que pode ser utilizado é o CF Ao fazer essa escolha será habilitada a opção de estacionáriedade dos dados além do método de diferenciação da série8 Ao selecionar a opção I0 há três alternativas para se proceder à diferenciação dos dados Por outro lado ao 8Para maiores esclarecimentos sobre o grau de integração de uma série de dados o leitor deve consultar a seção sobre Raiz Unitária 53 Ciclo 103 escolher que o processo é um random walk há uma opção adicional Assuma por hora que a série qx é um processo I0 e que vamos usar o método Remove linear trend Mantenha todas as demais opções como anteriormente ou seja Leadlags igual a 12 a mesma periodicidade para o ciclo e dê nomes para as variáveis como mostra a figura 525a A forma de cálculo de qxcfciclo é a mesma de antes usando a matriz de pesos a Opções filtro CF simétrico b Ciclo comparado pelos dois métodos Figura 525 Filtro CF simétrico aplicado a qx No geral os resultados são muito parecidos A matriz de pesos em pouco difere não foi aqui mostrada mas o leitor pode comparar bppeso com cfpeso e como mostrado na figura 525b o componente cíclico resultante da série filtrada também é similar O ganho maior no BandPass filter está em usar o método assimétrico Nesse caso não perdemos informações com o uso de leadlags Aliás como pode ser visto a opção do terceiro filtro não habilita a escolha do número de leadlags Escolha a opção Full sample asymmetric mantenha a periodicidade cíclica de 6 e 32 I0 e use o método remove linear trend Escolha nomes diferentes para os resultados para não coincidir com as estimativas anteriores Tal procedimento é mostrado na figura 526 A determinação da periodicidade cíclica pode variar de acordo com a percepção sobre a duração do ciclo O menor valor a ser especificado em Low é 2 o que irá produzir uma estimativa de ciclo bem errática Obviamente a duração máxima em High tem que ter um valor maior que o especificado em Low Outra opção que precisa ser avaliada em Stationarity Assumption é se a série em questão que estamos extraindo o ciclo é estacionária I0 ou então possui raiz unitária I1 e por fim temse que especificar o método para eliminar essa não estacionariedade Figura 526 Filtro CF assimétrico aplicado a qx 104 Capítulo 5 Séries de tempo Note que o ciclo agora é estimado para todo o conjunto de dados Além disso o leitor poderá ver que ao analisar a matriz de pesos a mesma é de dimensão 74x74 refletindo o fato de que os pesos variam no tempo Para encontrar o resultado do primeiro trimestre usase o primeiro vetor linha multiplicado pelo vetor coluna de qx Isso irá produzir como resultado a primeira informação do ciclo no nosso exemplo a série qxcfciclo2 Na linha 1 as primeiras 13 informações de pesos são idênticas às encontradas pelo método CF simétrico Na figura 527 comparamos os resultados da estimativa pelo filtro HP com a obtida pelo método CF assimétrico Note que esse tem uma estimativa de ciclo mais suavizada Figura 527 Ciclos de qx comparados Programação 534 Podemos fazer a estimativa do filtro ChristianoFitzgerald assimétrico usando diversas combinações entre ciclo mínimo e máximo Nesse caso especificamos primeiro um escalar de valor 4 a duração mínima do ciclo A seguir usamos typecfasym e em low denominamos esse escalar fixando o máximo em 60 Depois especificamos que a série seja diferenciada para eliminar a tendência especificando uma ordem de integração iorder1 A seguir especificamos a série ajustada pelo ciclo a partir de noncycqxbpfciclo Podemos especificar a matriz de pesos do ciclo usando weightwqxbp A seguir colocamos o nome da série filtrada qxbpf Se o nome da série do ciclo qxbpf for omitido o EViews R irá criar uma série de nome BPFILTER01 scalar num4 for a qx y px pm qm abpftypecfasymlownumhigh60detrendtiorder1nogain noncycleacf abpf numnum1 next 533 O Filtro CorbaeOuliaris As técnicas de extração do componente cíclico são divididas de forma geral em dois grupos ou no domínio do tempo ou da frequência Esse é particularmente importante na análise de séries econômicas devido a nãoestacionariedade ver Corbae e Ouliaris 2006 Após feita a instalação do addin fdfilter no EViews podemos usar esse filtro veja o capítulo que fala sobre addin Abra a série mensal do ibcbr em procaddins selecione corbaeouliaris FDfilter A Figura 528a mostra 54 Autocorrelação Correlograma 105 a caixa de diálogo onde devemos preencher com os valores a Caixa de diálogo do addin b Estimativa do ciclo com o filtro CorbaeOuliaris Figura 528 Filtro CorbaeOuliaris Programação 535 Uma vez que o addin FDfilter esteja instalado no EViews R é possível aplicar o filtro a partir do menu ou então a partir de um comando da subrotina Para o exemplo do IBCBR teremos call ideal bandpass ibcbr 00625 0033 ibcbrcicle data inicial data final Caso tenha várias séries de dados podemos usar um loop para aplicar o filtro a todas elas For a a1 a2 a3 name ciclo a call ideal bandpass a 0062 0333 name 2003MOI 2016MI next Como primeira opção colocamos a extensão do nome da série do ciclo que será calculada Nesse exemplo usamos FD As duas opções seguintes se referem aos valores dos períodos iniciais e finais ou fração de Π que será usado na determinação da frequência do ciclo Como default usamos 00625 e 03333 Por fim especifique o período de análise dos dados Como queremos uma estimativa para todo o período escrevemos all A Figura 528b mostra a estimativa do ciclo do IBCBr 54 Autocorrelação Correlograma O conceito de autocorrelação será bem útil quando analisarmos os modelos ARIMA mas já podemos começar a compreender algumas características e implicações da autocorrelação Como o próprio nome diz a autocorrelação descreve a relação de correlação que uma variável aleatória o PIB por exemplo tem com ela mesma no passado Em séries de tempo de economia é muito comum vermos a presença de autocorrelação bem como em séries financeiras Imagine a taxa de câmbio hoje Seu resultado será altamente correlacionado com o valor da taxa de câmbio ontem Quanto maior for essa relação maior será a medida de autocorrelação Há formas de ver a presença ou não de autocorrelação em uma série de dados sendo a mais comum fazer o correlograma Com uma série de tempo aberta qx por exemplo selecione ViewCorrelogram A janela de opções conforme figura 529a possibilita analisarmos a série em nível e primeira ou segunda diferença como adicionar o número de defasagens Um correlograma em nível avalia a série original Quando selecionamos 1st difference aplicamos o conceito de autocorrelação para a série de dados 106 Capítulo 5 Séries de tempo qx ou seja na primeira diferença da variável em questão A opção dos lags a incluir é apenas para o teste e a visualização gráfica O programa nos retorna dois gráficos de barras correlogramas e quatro estatísticas vinculadas autocorrelação AC autocorrelação parcial PAC estatística Q e a probabilidade conforme figura 529b a Opções b Correlograma de qx Figura 529 Correlograma A função de autocorrelação AC mensura a correlação de uma variável e suas defasagens Seu cálculo é obtido através da divisão da covariância com a defasagem k pela variância da amostra Ligeiramente diferente da definição teórica o EViews R estima autocorrelação pela seguinte fórmula tk n tk1xt xxtk x n t1xt x2 tal que quando k 1 estamos medindo a autocorrelação de ordem um e assim sucessivamente Já a autocorrelação parcial PAC calcula a autocorrelação da defasagem k descontando o poder preditivo das defasagens anteriores t1t2tk1 Os resultados de AC e PAC são apresentados de forma gráfica nos dois correlogramas onde a linha vertical continua indica o zero e as duas linhas pontilhadas aproximadamente dois desvios padrão computados por 2n Ou seja para que o coeficiente tk seja significativamente diferente de zero ao nível de significância de aproximadamente 5 este não pode estar entre as linhas pontilhadas No exemplo apresentado na figura 529b qx tem 74 observações então 2 74 02325 Logo para que o coeficiente seja significativo e estatisticamente diferente de zero não pode pertencer ao intervalo de confiança de 95 Prob ˆtk 02325 tk ˆtk 02325 095 Além de calcularmos a significância estatística para determinada defasagem individualmente podemos utilizar estatística Q de LjungBox QStat para uma hipótese conjunta Esse teste estatístico avalia a autocorrelação na defasagem k sob a hipótese nula de que todos coeficientes t1t2tk são simultaneamente iguais a zero A fórmula da estatística Q é dada por QLB TT 2 k j1 ˆτ2 j T j 54 Autocorrelação Correlograma 107 Assim supondo a avaliação da autocorrelação até k1 teremos QLB 7476 1 j1 09362 741 6754 Além disso a estatística Q e seu pvalor apresentados nas últimas duas colunas do correlograma são comumente utilizados para testar se a série é ruído branco Cabe destacar nesse caso que considerando uma série qualquer yt εt tal que o choque εt não é serialmente correlacionado esse processo com média zero e variância constante será denominado ruído branco Adicionalmente se εt e consequentemente yt forem serialmente independentes podemos dizer que y é ruído branco independente escrevendo yt iid0σ2 ou seja y é independentemente e identicamente distribuído com média zero e variância constante O correlograma também nos permite algumas considerações sobre modelagem das séries de tempo Se a autocorrelação apresentar coeficientes significativos que diminuem lentamente de forma geométrica e a autocorrelação parcial for para zero depois da defasagem p podemos evidenciar que a série obedece um processo autorregressivo puro de ordem p ARp Como o correlograma na figura 529b que nos sugeri que a série qx segue um processo autorregressivo de primeira ordem AR1 Enquanto processos puros de médias moveis MA apresentam autocorrelação próxima a zero depois de algumas defasagens junto de autocorrelação parcial persistente caindo gradualmente para zero conforme figura 530a Da mesma forma um correlograma que apresente um padrão sazonal de movimentos recorrentes como ondas sugeri a presença de sazonalidade figura 530b Vale ressaltar o padrão de séries nãoestacionárias mostram coeficientes de autocorrelação altos e persistentes em diversas defasagens como qx na figura 529b a MA4 b AR4 com sazonalidade Figura 530 Correlograma Programação 541 A programação para acessarmos o correlograma é dada pelo comando correlkonde k é a quantidade de defasagens a serem testadas Abaixo executamos o correlo grama na variável qx com 21 defasagens qxcorrel21 Também podemos criar para diversas séries de tempo um loop que salve as informações estatísti 108 Capítulo 5 Séries de tempo cas do correlograma em uma tabela de resumo scalar k 25 table corres j0 for a qx y px for i 1 to k freezemode overwrite temp acorrelk corres11j a corres21j k corres22j temp54 corres23j temp55 corres24j temp56 corres25j temp57 corres2i1j temp6i3 corres2i2j temp6i4 corres2i3j temp6i5 corres2i4j temp6i6 corres2i5j temp6i7 next j j5 next Note que inicialmente criamos o escalar k que recebe o número de defasagens a tabela resumo corres que receberá as estatísticas calculadas e a variável de contagem j que organizará as colunas em corres quando houver mais de uma série de tempo Então é aplicado o comando correl em qxy epx e guardamos as informação dentro da tabela temporária temp usando o comando freeze Para preenchermos corres com os dados contidos em temp 55 Análise Espectral A análise espectral tem muita aplicação na física química e demais ciências Na economia sua importância está principalmente na explicação das informações de frequência que podemos extrair e que acaba por revelar características cíclicas Toda série de tempo pode ser expressa a partir da soma de senos e cossenos que oscilam de acordo com uma determinada frequência O desafio é poder identificar essas frequências e isso pode ser feito via estimativa do periodograma Esse é conhecido como densidade espectral e relaciona as variabilidades do conjunto de dados com as frequências ao passo que na análise de série de tempo as variabilidades são relacionadas com o domínio do tempo Um dos pontos importantes é utilizar séries de dados que sejam estacionárias Sendo assim podemos afirmar que a densidade espectral é uma representação das características da série de tempo mas no domínio da frequência O canal para se fazer essa relação entre uma série de tempo expressa no domínio do tempo com uma que é expressa no domínio da frequência é a transformada de Fourier Na literatura da área são disponíveis diversos métodos paramétricos e nãoparamétricos para estimar a densidade espectral de um conjunto de dados Diversos pontos emergem a partir dessa relação e estão relacionados principalmente a variância dos dados Primeiro podemos citar que a integral da densidade espectral é igual a variância da série de dados Na verdade o espectro de uma série de tempo pode ser visto como a distribuição de variância dessa série como uma função da frequência Em segundo lugar que há uma relação entre o espectro que contém informações do conjunto de dados no domínio da frequência com a função de autocovariância que contém informações no domínio do tempo 55 Análise Espectral 109 Figura 531 Opções da Análise Espectral Uma vez identificada a densidade espectral podemos avaliar os picos de frequência e os períodos associados a ele Suponha uma série de dados mensal e que na análise espectral tenhase encontrado por exemplo um pico na frequência a Nesse caso o período associado a esse ciclo medido em meses é dado por 1a É normal termos mais de um pico na densidade espectral e veja que quanto maior for o valor de a menor será o período em tempo associado a essa frequência O Eviews faz análise espectral mas é necessário instalar o addin Spectral Analysis Vejamos como é a aplicação desse método a série mensal IBCBR do Banco Central do Brasil sem ajuste sazonal Lembrese que essa análise deve ser feita com a série estacionária Como a nossa série possui tendência primeiro temos que eliminar essa tendência o que é feito a partir de uma regressão simples tendo como variável independente o tempo e uma constante A seguir analisamos os resíduos dessa equação Com a série residuo aberta vá em ProcAddinsSpectral Analysis A janela que será aberta é como mostrado na figura 531 Note que há várias opções de escolha para o processo de alisamento do periodograma Vamos usar como default o ponto 20 como de truncagem e por enquanto não vamos selecionar as demais opções apenas deixe output table Após clicar em ok é perguntado se queremos gerar o ciclo ótimo Clique novamente em ok A seguir é aberta uma janela que pergunta o pvalor e o número de ciclos Digite 005 Deixe selecionada a opção weighted cycle e selecione individualcycles Clique em ok Diversos resultados são reportados mas vamos olhar primeiro para o gráfico do periodograma como mostrado na figura 532 Note que o mesmo não foi alisado e apresenta diversos picos Cada um desses picos na respectiva frequência possui um ciclo no tempo Mas tal como colocado no gráfico não seria possível identificar essas frequências Felizmente esses resultados são salvos em uma tabela no workfile de nome data Abra e poderá ver que o mesmo possui quatro colunas como mostrado na figura 533 A segunda coluna corresponde ao eixo horizontal do gráfico do periodograma e traz a relação ciclotempo A última coluna de nome periodogram corresponde ao eixo vertical do gráfico e permite identificar os picos da nossa densidade espectral Veja por exemplo que a primeira frequência de valor 0006369 tem o maior pico encontrado de valor 465 A terceira coluna nos mostra a relação tempociclo ou seja o período de ocorrência do ciclo dado por 1frequência Sendo assim para a frequência 0006369 temos um período cíclico de 157 meses Note que há um pico no periodograma de valor 289 associado com a frequência 0025478 e que gera um período de 39 meses Há outro pico na frequência 0082803 e que gera um período cíclico de 12 meses revelando a existência de sazonalidade no nosso banco de dados 110 Capítulo 5 Séries de tempo Figura 532 Periodograma da série residuo Figura 533 Data Alternativamente ao uso do periodograma para encontrar a densidade espectral podemos usar os demais filtros O gráfico 534a mostra a estimativa da densidade espectral usando o método de Hamming Note que o resultado é mais suave que o apontado pelo periodograma e sinaliza para a presença dos mesmos picos identificados anteriormente No gráfico 534b estão todas as estimativas de densidade Para fazer esse gráfico primeiro faça a estimativa considerando cada um dos métodos disponíveis A seguir monte um grupo com todas as séries denominadas de spectral densitye que estão na última coluna da tabela que é salva Por fim selecione ViewGraphXY line e do lado direito em details onde está multiple graphs escolha single graph First vs All Vejamos agora como pode ser obtido o ciclo Para esse exercício vamos primeiro extrair o ciclo pelo filtro HP Isso irá produzir uma série estacionária Abra a série do ciclo resultante da aplicação do filtro HP e vamos usar o addin de Spectral Analysis selecionando o filtro de Bartlett e selecione as opções como mostrado na figura 535a Na opção do filtro spectral vamos selecionar um teste a 005 e ciclos individuais tal como mostrado no gráfico 535b Note que há a opção de Cycle Sum Essa é a soma dos ciclos individuais pedidos acima O número de ciclos individuais que são gerados são quatro sfw13 sfw26 sfw39 e sfw4 Se somarmos os quatro teremos como resultante o ciclo estimado para a nossa série No conjunto de gráficos 536a estão os ciclos individuais estimados e no gráfico 536b está a soma dos quatro ciclos individuais 56 Exercícios 111 a Hamming b Comparativo de Densidade Espectral Figura 534 Estimativa Espectral a Opções de Filtro b Opções do Ciclo Figura 535 Análise Espectral a Ciclos Individuais b Ciclos da série IBCBR Figura 536 Ciclos estimados 56 Exercícios Exercício 51 Aplique os quatro diferentes métodos de dessazonalização na série qx agrupe em um gráfico e discuta as diferenças 112 Capítulo 5 Séries de tempo Exercício 52 Aplique os cinco diferentes métodos de alisamento exponencial na série y e discuta as diferenças de resultado entre eles Exercício 53 Utilize os diferentes métodos de alisamento exponencial para prever 6 trimestres de px Exercício 54 Monte um gráfico de y que compare os três diferentes métodos da opção detren ding method para o filtro CF simétrico em I0 Exercício 55 Monte um gráfico de y que compare os três diferentes métodos da opção detren ding method para o filtro CF assimétrico I0 Exercício 56 Monte um gráfico de y que compare os quatro diferentes métodos da opção detrending method para o filtro CF assimétrico I1 Exercício 57 Extraia o ciclo de y pelo método de dupla filtragem HP utilizado pela OECD2008 e compare aos resultados encontrados com uma única filtragem Exercício 58 Compare as melhores estimativas para y encontradas nos exercícios 55 56 e 57 Exercício 59 Quais são as características de uma série de ruído branco E por que a estatística Q é útil para identificála Exercício 510 Crie uma série de ruído branco e prove as afirmações feitas no exercício 59 utilizando o correlograma e a estatística Q Quais são as características de uma série de nãoestacionária E como podemos utilizar a autocor relação para inicialmente identificála Exercício 511 Por que consideramos o calculo de autocorrelação feito pelo EViews R diferente da definição teórica Exercício 512 Calcule o correlograma de y para 30 defasagens e indique quais autocorrelações são estatisticamente diferentes de zero ao nível de significância de 5 Exercício 513 Calcule o correlograma de y para 30 defasagens e indique quais autocorrelações são estatisticamente diferentes de zero ao nível de significância de 10 57 Bibliografia Christiano L J e Fitzgerald T J 2003 The Band Pass Filter International Economic Review 44 435465 Corbae Dean e Ouliaris Sam 2006 Extracting Cycles from Nonstationary Data In Dean 57 Bibliografia 113 Corbae et al eds Econometric Theory and Practice Cambridge Cambridge University Press pp 167177 Gyomai G e Guidetti E 2008 OECD system of composite leading indicators Organisa tion for Economic CoOperation and Development OECD Disponível em httpwwwoecdorgstdleadingindicators41629509pdf Hodrick R J e Prescott E C 1997 Postwar US business cycles an empirical investiga tion Journal of Money credit and Banking 116 Hylleberg Svend 1986 Seasonality in Regression Morais IAC Bertoldi A Anjos ATM 2010 Um modelo nãolinear para as exporta ções de borracha Revista Sober Nilsson R e Gyomai G 2011 Cycle extraction A comparison of the PhaseAverage Trend method the HodrickPrescott and ChristianoFitzgerald filters 6 Regressão Simples O primeiro contato com modelos de econometria começa agora Entretanto esse livro não tem a intenção de esgotar o assunto do ponto de vista metodológico e sim com aplicações Nesse sentido se o leitor precisar de fundamento s e discussões técnicas sobre o tema diversos livros técnicos podem se consultados O procedimento aqui é simples Começamos com a estimação de um modelo com apenas uma variável independente e explicamos todas as opções de testes e identificação de problemas que por ventura possam aparecer e que estão disponíveis noEViews R Entendido esse ponto o capítulo seguinte passa a explicar um modelo de regressão múltipla O primeiro passo na estimativa de um modelo de regressão é definir as variáveis dependentes e independentes No nosso exemplo a ideia é trabalhar com uma curva de demanda aplicada a exportação de móveis qx e que pode ser explicada pela variável renda yw que representa o número índice do PIB mundial Vejamos como estimar uma regressão simples Abra o arquivo do EViews R regressão simpleswf1 Há um conjunto de variáveis mas usaremos apenas duas nesse momento Nesse caso vamos rodar a seguinte equação de regressão 1 qxt α1 β1ywt εt Há três caminhos possíveis no EViews R para se estimar uma equação O mais simples deles é selecionar cada uma das variáveis a constar nessa equação sempre selecionando em primeiro lugar a variável dependente e a seguir clicar com o botão direito e clicar em Openas Equation A segunda maneira é ir em QuickEstimate Equation e escrever o formato da equação Esses dois métodos são mostrados na figura 61 Note a diferença sutil que existe podemos escrever nossa equação de duas maneiras Na primeira opção aparece apenas o nome das variáveis sempre seguindo a ordem da dependente como a inicial No segundo método é necessário escrever a equação onde o termo c1 e c2 representam os coeficientes a serem estimados 1Note que há dados com e sem ajuste sazonal onde esses são representados por sa Aqui foi usado o método X12 Desse ponto em diante usaremos apenas os dados com ajuste sazonal 116 Capítulo 6 Regressão Simples Figura 61 Como Estimar Uma Equação no EViews R Logo abaixo do campo onde se especifica as equações na figura 61 está o método de estimação que no nosso caso é o LS Least Squares também conhecido como mínimos quadrados e o Sample que é o período amostral onde serão feitas as estimativas Clique em OK Qualquer que seja a forma utilizada para rodar essa regressão o resultado será o mesmo como mostrado na figura 62 Diversas estatísticas podem ser visualizadas Na primeira linha está descrita a variável dependente seguido do método de estimação a data em que foi feita essa estimativaútilpara ver se os alunos fizeram o exercício na data certa o período utilizado para gerar os resultados e o total de dados Note que são usados 187 dados que vão de janeiro de 2000 a julho de 2015 Logo abaixo em uma tabela são mostrados os resultados da nossa equação e que normalmente são assim representados em livros e artigos de econometria qxt 18389 6616 0647 0063ywt εt onde entre parênteses ficam descritos os valores dos respectivos desviopadrão A terceira forma de estimar uma equação no eviews é via programação e pode ser visualizado no box 601 Programação 601 No caso da programação há duas formas de se rodar uma regressão Na primeira escrevemos o método que no presente caso é dado pelo comando ls que signi fica Least Square Mínimos Quadrados seguindo pela ordem das variáveis onde primeiro é colocada a dependente Há uma lista de opções que podem ser colocadas depois do termo ls consulte o manual Antes de qualquer coisa o melhor a fazer é especificar o intervalo de dados que estamos trabalhando que no presente exemplo é de 2000M1 a 2015M7 smpl 2000M1 2015M7 ls qxsa ywsa c A segunda maneira seria escrever o comando equation seguido do nome a ser dado para a equação e da lista das variáveis Há algumas vantagens nesse segundo método que vão ficar mais claras mais a frente Uma delas é o fato de já especificarmos o nome da nossa regressão como eq1 117 Figura 62 Resultado da Regressão Simples smpl 2000M1 2015M7 equation eq1ls qxsa ywsa c Programação 602 O arquivo regressão simpleswf1 também contém as séreis originais sem ajuste sazonal Podemos adicionar os comandos aprendidos no capítulo anterior para dessazonalizar as séries pelo método X12 multiplicativo e então rodar a regressão simples pelo método dos mínimos quadrados qxx12modem qx ywx12modem yw smpl 2000M1 2015M7 equation eq1ls qxsa ywsa c Os resultados para a nossa primeira estimativa de regressão simples podem ser visualizados na figura 62 Após os valores dos coeficientes parâmetros estão os desviospadrão StdError e na coluna seguinte da tabela está a estatística t tstatistic e o pvalor Prob A primeira é utilizada para testar se o seu respectivo coeficiente é estatísticamente diferente de zero a partir da fórmula t x µ σ Por exemplo podemos testar se α1 0 que é a nossa constante Nesse caso a estatística t é dada por t α1 0 σα 183890 6616 2779 O mesmo podendo ser feito para testar se β1 0 onde t β1 0 σβ 06470 0063 10216 118 Capítulo 6 Regressão Simples Por fim o resultado do Prob irá indicar se aceitamos ou rejeitamos a hipótese nula de que o coeficiente em questão é estatísticamente igual a zero O Prob aqui é o mesmo que o Pvalor Destacase que para esse teste estamos assumindo uma distribuição tstudent e que é bicaudal No nosso exemplo tanto para o coeficiente da constante quanto para o da renda rejeitamos a hipótese nula de que são estatísticamente iguais a zero O valor Prob também pode ser encontrado a partir da função tdist Nesse caso como o resultado é um número criamos primeiro um escalar e especificamos os valores para a função tdist a partir de scalar pvalortdist10216187 O valor 10216 é o valor da estatística t e 187 representa o número de graus de liberdade do teste equivalente ao número de observações utilizadas após o ajuste veja no início dos resultados na fig 62 Programação 603 Dando sequencia à nossa regressão simples os comandos abaixo podem ser usados para testar se o parâmetro da elasticidaderenda é igual a zero β1 0 Nesse caso primeiro especificamos a estatística t e armazenamos a mesma em um escalar de nomevalort salvamos o número de observações no escalar obs e a seguir aplicamos o teste para encontrar seu respectivo pvalor e armazenar o resultado em um escalar de nome pvalor smpl 2000M1 2015M7 equation eq1ls qxsa ywsa c scalar valorteq1tstats1 scalar obseq1regobs scalar pvalortdistvalortobs Além desses resultados básicos há diversos outros que são mostrados logo abaixo e que servem para avaliar o modelo em questão Por exemplo no caso do Rsquared conhecido como R2 ou R2 o valor de 0360 deve ser interpretado como cerca de 36 das variações em qx são explicadas por variações em yw Alguns costumam afirmar que esse resultado na verdade estaria se referindo ao grau de explicação do modelo o que não deixa de ser verdade A fórmula é dada por R2 1 T t1 ˆεt 2 T t1Yt Y2 O termo T t1 ˆεt 2 é denominado de soma do quadrado dos resíduos e que está mostrado na tabela como Sum squared resid T t1 ˆεt 2 3643821 Esse resultado pode ser feito manualmente Primeiro pegue todos os resíduos da regressão e eleve cada um deles ao quadrado e depois some todos Esse termo também poderia ser expresso da seguinte forma T t1 ˆε ε2 Onde ε é a média dos resíduos Porém por definição a média dos resíduos é igual a zero uma vez que a reta de regressão foi estimada de forma a passar exatamente na média de todos os pontos Sendo assim tudo o que se erra na estimativa para cima também se erra para baixo Ou seja teremos valores positivos e negativos que se anulam e sua média daria zero Sendo assim acabamos por fazer T t1 ˆε ε2 T t1 ˆε 02 T t1 ˆε2 Caso queira verificar a série de resíduoscom a equação aberta vá em ViewActualFittedResidual Ou então se quiser gerar a série dos resíduos vá emProcMake Residual Series e escolha um nome para essa série 119 Programação 604 Uma alternativa interessante é rodar várias regressões com uma janela fixa de por exemplo 60 dados ou seja 5 anos Nesse caso iniciamos uma regressão em 2000M1 que vai até 2004M12 A seguir a segunda regressão vai de 2000M2 até 2005M1 e assim sucessivamente Isso irá representar 99 regressões no total com a última indo de 2008M4 a 2013M3 Para tanto podemos declarar um loop usando o comando for for i1 to 99 smpl 2000M1i 2004M12i equation eq2ls qxsa ywsa c next Porém isso irá gerar apenas um resultado para as nossas estimativas qual seja a última regressão Nesse caso não iríamos saber como evoluiu por exemplo ao longo dessas 99 regressões o valor do coeficiente da elasticidade rendademanda O ideal seria comparar essa estimativa com a que envolve todos os dados como feito anteriormente em eq1 Para tanto podemos usar o comando matrix para criar uma matriz de 100 linhas de nome coef e depois pedir para salvar esse coeficiente nessa matriz smpl 2000M1 2015M7 equation eq1ls qxsa ywsa c matrix100 coef coef100eq1coefs1 for i1 to 99 smpl 2000M1i 2004M12i equation eq2ls qxsa ywsa c coefieq2coefs1 next Como último complemento note que após fazer isso seu conjunto de dados amostral se reduziu para 60 dados mostrado na parte superior do workfile em sample Para fazer o banco de dados contemplarem todos os dados escreva no final do programa smpl all A figura 63a mostra como são os resíduos e a 63b a distribuição dos mesmos Veja que a média é zero satisfazendo a premissa do modelo de regressão Eε 0 Mas não possuem uma distribuição normal sinalizando que podemos melhorar essa estimativa no futuro 120 Capítulo 6 Regressão Simples a Resíduos b Distribuição dos Resíduos Figura 63 Resíduos da Regressão Simples A seguir o termo T t1Yt Y2 representa o quanto a variável dependente desvia em relação à sua média O termo é elevado ao quadrado exatamente para evitar que desvios positivos sejam anulados por desvios negativos A média da variável dependente é mostrada na tabela como Mean dependent var e para o nosso exemplo tem valor qxt 85168Para encontrar esse valor podemos usar o comando scalar media eq1meandep Isso também pode ser feito manualmente onde teremos T t1Yt Y2 85168 Por fim no nosso exemplo basta encontrar R2 1 3643821 56994139 0360 Veja que independente do modelo que for utilizado o denominador da equação acima nunca se modifica Porém o numerador ou seja o desvio dos erros em relação a sua média que é igual a zero será diferente para cada modelo Ou seja tem modelos que erram mais que outros Dessa forma quanto maior for o numerador relativamente ao resultado do denominador mais o modelo estará errando e com isso menor será o valor de R2 Um modelo que tem erro próximo a zero irá produzir um R2 próximo ao valor 1 Logo abaixo dessa estatística há outra que deve ser considerada mais útil é a Adjusted R squared Nessa o valor do R2 é corrigido pelo número de coeficientes que estão sendo utilizadas no modelo Sua fórmula geral é dada por R2 11R2T 1 T k Onde T é o número de observações utilizadas e k é o número de coeficientes No nosso exemplo temos 187 dados e dois coeficientes um para a constante e outro para a variável independente Sendo assim R2 1103601871 1872 0357 Porque utilizar o R2 e não o R2 Em regressão simples os dois valores são bem parecidos pois termos no máximo dois coeficientes a utilizar a constante e o β Mas em modelos de regressão múltipla onde k é maior as estimativas podem diferir de forma significativa Programação 605 Seguindo no exemplo das nossas 100 regressões podemos pedir agora para que seja criada uma série com todos os valores dos R2 Isso será útil para identificar em qual sequência de regressões obtemos a melhor estimativa Assim criamos mais uma matriz só que agora de nome explicado e pedimos para salvar os valores nela Note que os valores da regressão com o conjunto total dos dados ficam na última linha dessa matriz 122 Capítulo 6 Regressão Simples Para o nosso exemplo teremos F 0360 21 1872 10360 104364 E com base no pvalor podemos rejeitar a hipótese nula de que β1 0O Prob pode ser encon trado usando scalar probf 1 fdist1043641185 E usando scalar f eq1f encontramos o teste F Programação 606 O teste F pode ser feito via programação Primeiro criamos o scalar de nome f que calcula o valor da estatística A seguir criamos o scalar de nome testef para especificar o pvalor dessa estatística que tem k1 graus de liberdade no numerador e Tk graus de liberdade no denominador scalar f eq1r2eq1nperseq1ncoefeq1ncoef11eq1r2 scalar testef1cfdistfeq1ncoef1eq1nperseq1ncoef Além da estatística R2 muito utilizada para comparar modelos o EViews R fornece outras três que são bem mais eficientes e que são conhecidas como critérios de comparação Em ambas quanto menor o valor em módulo melhor A primeira delas é o critério de Akaike De forma geral sua fórmula é dada por AIC 2 T k l Onde l é o log da verossimilhança Usando os dados do nosso exemplo vemos que AIC 2 1872758298 8131 Esse valor também pode ser encontrado usando scalar aic eq1aic A segunda estatística é o critério de informação de Schwarz A vantagem desse método em relação ao de AIC é que agora é aplicada uma espécie de penalidade para o uso de coeficientes adicionais SC 1 T klnT2l O comando no EViews R que retorna essa estatística é dado por scalar sc eq1schwarz Para os dados do nosso exemplo teremos SC 1 1872ln1872758298 8166 Por fim também pode ser usado o critério de comparação de HannanQuinn que adiciona mais uma penalidade HQ 2 T klnlnTl Usando os dados do nosso exemplo encontramos HQ 2 1872lnln187758298 8145 Para encontrar essa estatística podemos usar o comando scalar hq eq1hq Um ponto importante a destacar é que essas três estatísticas não são comparáveis entre si Ou seja de posse de diferentes modelos comparamos o AIC do modelo 1 com o AIC dos demais modelos Não usamos a comparação entre AIC e HQ por exemplo 123 Programação 607 Ao rodar as 100 regressões podemos estar interessados em criar uma série de dados que mostre a evolução dos critérios de comparação Como iremos usar os três critérios a nova matriz que usaremos de nome criterio tem que ter 3 colunas Criamos a mesma e salvamos os valores desses critérios para a eq1 A seguir ao rodar o loop fazemos o mesmo para cada uma das outras 99 regressões smpl 2000M1 2015M7 equation eq1ls qxsa ywsa c matrix100 coef coef100eq1coefs1 matrix100 explicado explicado100eq1r2 matrix1003 criterio criterio1001eq1aic criterio1002eq1hq criterio1003eq1schwarz for i1 to 99 smpl 2000M1i 2004M12i equation eq2ls qxsa ywsa c coefieq2coefs1 explicadoieq2r2 criterioi1eq2aic criterioi2eq2hq criterioi3eq2schwarz next smpl all Até esse momento vimos como avaliar os resultados das estatísticas do modelo de regressão e como as mesmas são calculadas A figura 64 traz um resumo das funções utilizadas até o presente momento Esses comandos devem ser aplicadas em uma equação Por exemplo para determinar a número de observações do modelo de de nome eq1 é utilizado o comando eq1regobs Figura 64 Comandos para Resultados do Modelo de Regressão Após avaliar esses resultados podemos ver graficamente como o nosso modelo para o conjunto de dados se comportou Para tal com a janela de resultados da nossa regressão aberta 124 Capítulo 6 Regressão Simples clique em Resids O mesmo irá mostrar o gráfico conforme figura 65 Figura 65 Resultados do Modelo de Regressão Tal como citado na legenda do gráfico a linha vermelha mostra os verdadeiros valores da variável dependente no nosso caso qx A linha verde são as estimativas obtidas a partir do modelo de regressão E por fim a linha azul é a série de resíduos que nada mais é que a diferença entre o verdadeiro valor e o estimado Note que o nosso modelo não é tão bom para reproduzir o comportamento de qx em determinados momentos errando muito Nesse momento o leitor pode estar se perguntando como é feita a estimativa dos valores para cada período Vamos recordar a equação encontrada qxt 18389 6616 0647 0063ywt εt Com base nela podemos determinar qualquer valor de qx ao longo do tempo Por exemplo a estimativa para janeiro de 2000 pode ser dada a partir da substituição do respectivo valor da variável independente naquela data Ou seja olhando a série de ywt ajustada sazonalmente vemos que em janeiro de 2000 temse ywjan2000 76333 Sendo assim podemos encontrar o valor de qx jan2000 fazendo qxjan2000 18389064776333 67850 Esse procedimento pode ser repetido para qualquer mês que se queira avaliar modificando apenas o respectivo valor de ywt e mantendo fixo o coeficiente da constante 18389 e da inclinação 0647 Após fazer a regressão é necessário proceder a uma investigação detalhada sobre os resultados Há no EViews R 3 blocos de testes que são explorados nas seções a seguir Primeiro é feita a investigação sobre os coeficientes A seguir sobre os resíduos e por fim sobre a estabilidade do modelo 61 Diagnóstico Dos Coeficientes Alguns estatisticas podem ser avaliadas para testar a robustês dos coeficientes Com uma equação aberta o diagnostico dos coeficientes pode ser acessado em ViewCoefficient Diagnostics Note que são nove diferentes tipos de testes que avaliaremos na sequência 61 Diagnóstico Dos Coeficientes 125 611 Scaled Coefficients Essa opção só funciona se a equação for estimada a partir de um comando de lista Lembrese disso pois vários outros testes exigem esse formato Como é o modelo estimado em lista Você terá que ao abrir a janela de estimativa da equação escrever as variáveis em ordem No nosso exemplo colocamos qxsa ywsa c Essa opção permite que se tenha uma visão da estimativa dos coeficientes os coeficientes padronizados e as elasticidades médias Para o nosso exemplo temos os resultados mostrados na figura 66 Figura 66 Scaled Coefficients Na primeira coluna estão as variáveis na segunda coluna o valor dos coeficientes estimados Na terceira coluna os coeficientes padronizados e por fim a estimativa das respectivas elasticidades no ponto médioEssa tabela também pode ser encontrada usando o comando eq1coefscale 612 Intervalo de Confiança Uma informação útil na interpretação dos resultados de uma regressão é usar o intervalo de confiança dos coeficientes Ao clicar em ViewCoefficient Diagnostics selecione Confidence Intervals Na janela que irá abrir podemos selecionar qualquer tamanho para o intervalo de confiança Por exemplo na figura 67 mostramos como seriam os resultados para estimativas com 95 de significância Figura 67 Intervalo de Confiança Note que ao não marcar a opção Arrange in pairs os resultados mostrados são mais fáceis de interpretar com o intervalo mínimo à esquerda no meio a média do coeficiente e depois o intervalo máximo A tabela com os instervalos de confiança pode ser obtida usando o comando eq1cintervalnopair 95 Para encontrar esses valores a um nível de significância de 95 e uma distribuição tstudent o resultado para o coeficiente de ywt será dado por 126 Capítulo 6 Regressão Simples yw1972σyw yw yw1972σyw 064719720063 yw 064719720063 0522 yw 0773 Com 99 de significância usamos yw2346σyw yw yw2346σyw 0482 yw 0813 O mesmo também pode ser feito para todos os demais coeficientes encontrados inclusive a constante A forma de interpretar esse resultado é Acreditase que o valor de ywt tem 95 de probabilidade de ficar entre 0522 e 0773 Programação 611 Para o nosso exemplo de 100 regressões podemos pedir para que seja criado a cada passo o intervalo de confiança para o primeiro coeficiente Nesse caso mudamos a matriz coef para 3 colunas onde na primeira temos o intervalo inferior a 95 na segunda coluna temos a estimativa do coeficiente na terceira coluna o intervalo superior a 95 Note que também é modificada a parte do loop smpl 2000M1 2015M7 equation eq1ls qxsa ywsa c matrix1003 coef coef1002eq1coefs1 coef1001eq1coefs11975eq1stderrs1 coef1003eq1coefs11975eq1stderrs1 for i1 to 99 smpl 2000M1i 2004M12i equation eq2ls qxsa ywsa c coefi2eq2coefs1 coefi1eq2coefs11972eq2stderrs1 coefi3eq2coefs11972eq2stderrs1 next smpl all Um ponto importante na construção do intervalo de confiança é definir o valor na curva de distribuição Nesse caso como usamos a curva tstudent devemos ter em mente que é necessário especificar também os graus de liberdade Sendo assim o valor de 1972 para 95 só é válido para 185 graus de liberdade do nosso modelo Nk onde N é o número de dados e k o número de coeficientes Se o número de dados ou o número de coeficientes variarem o valor para 95 não será mais 1972 Felizmente existe uma função no EViews R que permite encontrar esse ponto na curva de distribuição qtdistáreagraus de liberdade No nosso exemplo queremos saber o ponto para 95 Note que como temos uma curva bicaudal devemos especificar uma área divida em dois520025 sendo assim o valor de área0975 e os graus de liberdade185 Com isso podemos encontrar 1972 Programação 612 Encontrando o ponto na curva tstudent que especifica o intervalo de confiança de acordo com uma área e um valor dos graus de liberdade Para encontrar o ponto no qual a área interna é 90 e temos 185 graus de liberdade Coefficient Confidence Intervals Date 032816 Time 2224 Sample 1997M01 2015M09 Included observations 187 Variable 99 CI 95 CI 90 CI Coefficient 90 CI 95 CI 99 CI YWSA 0482887 0522833 0543113 0647967 0752821 0773101 0813047 C 1167956 5335207 7450861 1838936 2932786 3144351 3561076 scalar pontoqtdist095185 uma equação com apenas um parâmetro ou sejak21 Tendo a SSE21259347 Substituindo esses valores no teste F encontramos F 1259347364382 21 364382 1872 4543817 Para encontrar o pvalor desse teste é só fazer scalar pvalorf 1cfdist45438171185 O teste F é válido nesse caso apenas se assumirmos que os erros só independentes e com distribuição normal Assim pelo resultado do pvalor probability podemos dizer que o coeficiente de yw t é estatísticamente diferente de 2 Como pode ser visto na figura 69 Também podemos estar interessados em testar se os coeficientes do nosso modelo de regressão são estatisticamente iguais Nesse caso devemos mudar a hipótese nula para H0c1c2 ou então H0c1c20 Hac1c2 ou então Hac1c20 Para fazer isso no EViews vá em ViewCoefficient DiagnosticsWald Test e especifique tal como mostrado na figura 610 Pelo resultado do teste não é possível aceitar a hipótese nula Sendo assim os dois coeficientes são estatisticamente diferentes 61 Diagnóstico Dos Coeficientes 129 Figura 610 Teste de Wald c1c2 614 Confidence Ellipse Apesar do teste de Wald ser muito útil é normal que se queira testar mais de uma restrição como por exemplo se c10 e ao mesmo tempo se c20 Nesse caso o teste de Wald não é o mais apropriado e devemos recorrer a ViewCoefficient DiagnosticsConfidence Ellipse Isso pode ser feito apenas digitando os coeficientes omitindo o valor 0 Assim da forma como digitado c1 é o mesmo que testar se c10 Como também deixamos c2 estamos na verdade testando se c1c20 Em confidence levels selecione 095 95 Em individual intervals selecione Shade que é uma opção melhor de visualizar os resultados A seguir clique em Ok Figura 611 Confidence Ellipse Como mostra a figura 611 há um ponto central na cor vermelha Esse representa a es timativa dos dois coeficientes na equação de regressão com c1 0647 e c2 18389 Para conferir isso coloque o mouse sobre o ponto vermelho que esses valores irão aparecer A área que está na cor cinza representa o intervalo de confiança individual para um teste a 95 de significância ou seja para cada um dos coeficientes Note que para o coeficiente 130 Capítulo 6 Regressão Simples c1 esse é dado por 0522 c1 0773 no eixo horizontal Lembrese que encontramos esse valor do intervalo de confiança anteriormente Para a constante que é o segundo coefi ciente 5335 c2 31443 e está no eixo vertical Dentro do círculo está o resultado do teste conjunto No nosso caso testando se c1 c2 0 Esse gráfico pode ser gerado usando o seguinte comando no EViews R eq1cellipseindshade C10 C20 Figura 612 Confidence Levels 099 090 A análise pode ser feita tanto para um teste individual quanto para um teste conjunto Por exemplo se qui sermos testar a 95 se c1 12 vemos que esse valor está fora da área cinza do gráfico na linha hori zontal Sendo assim rejeitamos a hi pótese nula Para comprovar esse re sultado faça o teste de Wald para c1 Da mesma forma podemos testar se c2 25 Olhando no gráfico ve mos que esse valor está fora da área cinza não se esqueça de agora ver a linha vertical Dessa forma rejeita mos a hipótese nula Mas se queremos um teste con junto entre dois coeficientes como no nosso caso entre c1 e c2 deve mos olhar para a elipse Sempre que a combinação entre os dois pontos fi car dentro da elipse não é possível rejeitar a hipótese nula Uma outra opção interessante é colocar mais de um intervalo Na caixa de opção Confidence levels digite 099 090 e em Individual intervals a opção Line Tal como no comando eq1cellipseindline size 099 090 C10 C20 O resultado é como na mostrado na figura 612 615 Variance Inflation Factors Figura 613 Variance Inflation Factors Essa medida tem como objetivo apon tar o nível de colinearidade que existe entre as variáveis independentes do modelo Duas variáveis são ditas se rem colineares se todos os pontos es tiverem sob uma linha reta Nesse sentido se duas variáveis possuem determinado grau de colinearidade é natural esperar que uma esteja influ enciando a estimativa do coeficiente da outra O VIF permite identificar a presença de colinearidade na nossa equação dividindo a variância dos parâmetros em questão O resultado é apresentado de duas formas O VIF centrado é encontrado a partir da divisão da variância do coeficiente obtida no modelo completo no nosso caso 0004023 pela variância do mesmo coeficiente mas estimado a partir de um modelo que contenha apenas a constante e o coeficiente em questão Como temos um 61 Diagnóstico Dos Coeficientes 131 modelo de regressão simples esses dois valores são iguais resultando em um VIF centrado emyw de 1 Veja na figura 613 A segunda medida é o VIF nãocentrado Esse é dado pela razão da variância do coeficiente obtida a partir de um modelo completo 0004023 e um modelo sem constante faça uma regressão qxsa c2ywsa e encontrará β 082211 com variância de 000010028 Esse resultado pode ser acessado a partir de eq1varinf na janela de comando 616 Decomposição da Variância do Coeficiente Figura 614 Decomposição da Variância do Coeficiente Essa é uma ferramenta útil para de terminar a existência de uma possível colinearidade entre as variáveis inde pendentes O método se dá pela cons trução da matriz de covariância dos coeficientes a seguir são encontra dos os autovetores e por fim a pro porção da decomposição da variância Vejamos como interpretar esses resul tados para a regressão que estamos usando A figura mostra esses cál culos A última parte da tabela mostra a estimativa dos autovetores para os dois parâmetros do modelo para en tender isso consulte o capítulo sobre análise de componente principal A partir desses autovetores obtémse a proporção da decomposição da vari ância mostrado no meio da tabela Por fim é feito o cálculo do condi tion number Como regra se esse va lor é menor que 1900 0001 en tão há colinearidade Se for verifi cado na linha condition mais de um resultado menor que 0001 então é necessário avaliar a proporção da de composição da variância Veja que no nosso exemplo o condition apresenta um resultado menor que 0001 dado por 000000221 associado ao autovalor 4378 Isso sinalizaria que temos colinearidade Porém estamos trabalhando apenas com uma variável independente Esse tipo de investigação faz sentido em um modelo com mais de uma variável independente A tabela com os resultados apontados acima pode ser facilmente encontrada usando eq1cvardecomp 617 Variáveis Omitidas Frequentemente nos deparamos com a possibilidade de inserir uma nova variável no modelo de regressão como forma de melhorar o poder de explicação do mesmo Porém pode ocorrer de ao se fazer isso a contribuição não seja tão boa Nesse caso o ideal seria fazer um teste de variáveis omitidas Já fizemos o modelo de regressão mais básico onde 132 Capítulo 6 Regressão Simples qxt 18389 6616 0647 0063ywt εt Agora vamos investigar se a omissão por exemplo da variável pxt foi ruim para o modelo Nesse caso com a janela da equação acima aberta vá em ViewCoefficient DiagnosticsOmitted Variables Test A seguir digite o nome da variável em questão ela tem que existir noworkfile Os resultados são apresentados na figura 615 Ao final será possível identificar a regressão na forma qxt 21625 10096 1531 0185ywt 0428 0085 pxt εt Esse é o primeiro contato com a ideia de regressão múltipla O resultado dessa regressão aparece na parte final da tabela A estatística t e o Prob são avaliados como anteriormente Ou seja para poder fazer o teste primeiro é rodada uma regressão com a presença da variável que está supondo ter sido omitida Posteriormente são feitos os testes e apresentados no início da tabela O primeiro resultado para o teste tstatistic referese apenas à hipótese de o coeficiente da nova variável no nosso caso pxt ser estatísticamente igual a zero Pelo pvalor rejeitamos a hipótese nula e individualmente o coeficiente é diferente de zero Ou seja desse ponto de vista ele seria importante para o modelo Veja a primeira parte da tabela na figura 615 Aqui é desnecessário mostrar como chegamos no Probability pois já comentamos isso anteriormente Logo abaixo está o teste Fstatistic que representa o teste conjunto para ver se todas as variáveis são estatísticamente iguais a zero ou seja se c1 c2 c3 0 Porém esse teste é feito com base em um modelo restrito sem a variável pxt relativamente a um modelo nãorestrito com a presença da variável pxt O conjunto de informações em Ftest summary mostra os resultados para a soma do quadrado dos resíduos para os dois modelos o restritosem a variável px e o não restrito com a variável px Fstat SSRRSSRUR q SSRUR Tk Onde SSRR é a soma dos resíduos ao quadrado do modelo restrito SSRUR é a soma ao quadrado do modelo nãorestrito com todas as variáveisq é o número de restrições impostasT é o número de observações e k é o número de parâmetros presentes no modelo não restrito A hipótese nula é que a variável que foi omitida não é significativa para o modelo Substituindo esses valores encontramos Fstat 36438213203126 1 3203126 1873 25315 Assim o valor de F 253150000 sinaliza que rejeitamos a hipótese nula e os coeficientes não são iguais e dessa forma adicionar a variável pxt no modelo representa ganhos Note que o teste F para variáveis omitidas tem distribuição X2 q onde q é o número de restrições impostas Nesse caso podemos encontrar o pvalor diretamente no EViews R Programação 613 Podemos encontrar o pvalor do teste escrevendo um comando no EViews R Na barra de ferramentas clique em Window e depois selecione Command Essa ação irá abrir uma parte em branco na parte superior do EViews R Ali podemos escrever o comando abaixo e verificar que ele cria uma variável escalar de nome testef com o resultado do pvalor scalar testef testefchisq253151 61 Diagnóstico Dos Coeficientes 133 Figura 615 Variáveis Omitidas pxsa Note que devido ao fato de executarmos as linhas de programação pela janela de comandos devemos executar cada linha de uma vez Por fim temos o teste de razão de verossimilhança conhecido como LR Esse também tem como objetivo comparar o modelo restrito e o nãorestrito e tem como hipótese nula que adicionar uma nova variável não seria significante para o modelo De forma geral o teste é dado por LR 2lrestrito lnaorestrito Onde lrestrito é o log da verossimilhança para o modelo restrito No nosso exemplo olhando os resultados das estimativas temos que LR 2758298746245 24105 E pelo resultado do pvalor mostrado no início da tabela rejeitamos a hipótese nula de que inserir a variável não é estatísticamente significativo para o modelo Portanto concluímos pela importância de inserir a variável pxt Um lembrete importante esse teste não se aplica quando usamos variáveis dependentes defasadas Isso ficará mais claro após ter estudado os modelos autoregressivosA tabela com os resultados para o teste de variáveis omitidas pode ser facilmente encontrada usando eq1testadd pxsa para o nosso exemplo Também podemos testar a omissão de mais de uma variável Seja por exemplo o modelo básico restrito dado por qxt 18389 6616 0647 0063ywt εt E queremos testar se a omissão da variável pxsa e pmsa são estatisticamente significativas para o modelo ou não Nesse caso o modelo completo seria dado por qxt 126641 15682 1815 0163ywt 1343 0135 pxt 1686 0209pmtεt Para fazer esse teste com a janela da equação acima aberta vá em ViewCoefficient Diagnos ticsOmitted Variables Test A seguir digite o nome das variáveis que estão sendo omitidas tal como mostrado na figura 616 134 Capítulo 6 Regressão Simples Figura 616 Variáveis Omitidas pxsa e pmsa Note que não é mostrado o resultado para o teste t Isso ocorre pois estamos testando mais de uma variável Tanto pelo teste F quanto pelo LR rejeitamos a hipótese nula de que inserir as variáveis não é estatisticamente significativo para o modelo Ou seja a inclusão dessas variáveis no nosso modelo deve resultar em melhora nas estimativas Nesse caso o teste F é dado a partir de Fstat 3643821323656802 2 23656802 1874 49436 E o teste LR é dado por LR 2758298717909 80777 Programação 614 Podemos fazer o teste LR para variáveis omitidas a partir da programação Nesse caso de acordo com o nosso exemplo especifique a equação restrita que tem apenas uma variável independente e a nãorestrita com duas variáveis independentes Após estimar calcule o teste usando o comando do log da verossimilhança smpl 2000M1 2015M7 equation eq1ls qxsa ywsa c equação restrita equation eq4ls qxsa ywsa pxsa c equação nãorestrita matrix12 testeomitida cria uma matriz com 1 linha e 2 colunas testeomitida112eq1logl2eq4logl testeomitida12chisqtesteomitida111 o número de graus de liberdade no teste quiquadrado é igual ao número de restrições variáveis omitidas 618 Variáveis Redundantes Um teste complementar ao teste de variáveis omitidas seria verificar se um conjunto de variáveis do modelo poderia ser excluído sem prejuízo Esse é o tipo de investigação que só faz sentido em modelos de regressão múltipla onde o método de estimação foi mínimos quadrados TSLS binário do tipo logit e demais que possuem variável dependente do tipo ordenada Outro ponto importante para fazer esse teste é que ele só funciona se quando for estimar a equação utilizar variáveis em lista Vamos exemplificar esse teste usando um modelo completo especificado em lista como na figura 617a 61 Diagnóstico Dos Coeficientes 135 a Especificação em Lista b Resultados Figura 617 Variáveis Redundantes Regressão eq2 Note que primeiro escrevese a variável dependente seguida das demais independentes e se for o caso a constante A figura 617b mostra os resultados dessa regressão Nomeiea como eq2 A seguir vá em ViewCoefficient DiagnosticsRedundant Variables Test e especifique as variáveis que quer investigar se podem ser excluídas do modelo No nosso exemplo vamos escolher pmsa e qmsa como mostrado na figura 618a Os resultados dos testes aparecem como mostrado na figura 618b a Exclusão de pmsa e qmsa b Resultados Figura 618 Variáveis Redundantes Na parte inferior do resultado aparece a regressão sem os dois parâmetros de restrição que estamos testando Veja que da mesma forma do teste de variáveis omitidas saí fornecido os resultados par o teste LR e F Seus valores são calculados como anteriormente dispensando apresentação Esse resultado também pode ser obtido usando o comandoeq2 testdrop pmsa qmsa 619 Teste Factor Breakpoint Esse teste é uma forma de encontra uma possível mudança estrutural na equação A maneira de fazer isso é estimar a equação em diferentes subperíodos da amostra e depois comparar os respectivos 136 Capítulo 6 Regressão Simples modelos via soma dos resíduos ao quadrado em um típico teste F Fizemos isso anteriormente ao comparar o SSE de um modelo restrito com outro não restrito Além do teste F também é reportado o teste LR Onde a hipótese nula é de ausência de quebra estrutural e tem distribuição X2 com m1k graus de liberdade Aqui k é o número de parâmetros na equação e m o número de subamostras Por fim tem o teste de Wald onde a hipótese nula é de ausência de mudança estrutural Esse é um teste que para ser feito tem que ter uma variável dummy especificando as datas em que possivelmente tenha ocorrido uma quebra estrutural Até esse momento o leitor não foi apresentado ao conceito de quebra estrutural nem variáveis dummy Uma variável dummy é uma variável indicador que assume valores 0zero e 1um É uma típica variável categórica e que veremos sua aplicação em várias áreas da econometria como modelos probit logit em quebra estrutural e etc Vamos criar uma variáveldummy no nosso banco de dado que separe dois intervalos de tempo Nesse caso o objetivo é testar se os anos eleitorais no Brasil resultaram em problemas para o nosso modelo O box de programação 615 mostra como criar essa dummy Programação 615 Para criar uma variável dummy podemos usar vários recursos digitar os valores diretamente no EViews R criar a série no Excel e copiar para o EViews R usar programação Abaixo mostramos como criar uma dummy de valor 1 para os anos eleitorais e 0zero para os demais anos series dummy0 smpl 1998m1 1998m12 2002m1 2002m12 2006m1 2006m12 2010m1 2010m12 2014m1 2014m12 dummy1 smpl all A figura 619a mostra como ficou nosso gráfico da variável dummy Veja que nos anos eleitorais esta assume o valor 1 Agora vamos ver se esses períodos têm impacto no modelo Vamos usar a equação eq1 como base Abra ela e depois vá em ViewCoefficient DiagnosticsFactor Breakpoint Test e insira a variável dummy no quadro como mostrado na 619b a Variável Dummy b Inserindo Dummy Figura 619 Teste Factor Breakpoint 62 Diagnóstico Dos Resíduos 137 O resultado é tal como mostrado na figura 620 Nas primeiras linhas estão descritas a variável considerada como fator no teste a hipótese nula e o fato de que estamos testando um impacto em todos os parâmetros do modelo São fornecidas três estatísticas em todas não é possível rejeitar a hipótese nula de ausência de quebra estrutural Sendo assim não podemos afirma que os ciclos eleitorais estejam afetando o nosso modelo Figura 620 Resultados do Teste Factor Breakpoint 62 Diagnóstico Dos Resíduos Além do diagnóstico dos coeficientes há uma série de opções para diagnostico dos resíduos e que serão vistas nessa seção O processo de avaliar os resíduos é muito importante pois é ali que ficam caracterizados todos os problemas que possam existir na especificação do modelo Após estimar uma equação de regressão há uma série de pressupostos que devem ser investigados como forma de validar o modelo Por exemplo de uma forma geral ao especificar nosso modelo de regressão colocamos qxt α1 β1ywt εt E na verdade apesar de não ter sido afirmado estamos supondo que εt NIID0σ2 Ou seja estamos supondo que os resíduos têm distribuição normal são independentes e identica mente distribuídos tem média zero e variância finita E esses pressupostos são importantes para garantir que o modelo tem boa especificação Assim esse passo tem como objetivo investigar cada uma dessas afirmações Vamos começar pela mais simples e que menos influência pode ter nos resultados que é a distribuição normal dos resíduos 621 Teste de Normalidade Já vimos anteriormente como podemos testar se uma série de dados possui distribuição normal Agora queremos saber se os resíduos da regressãoeq1 são distribuídos normalmente qxt 18389 6616 0647 0063ywt εt Com a janela da regressão aberta vá em ViewResidual DiagnosticsHistogram Normality test Ao fazer isso será retornado o gráfico da distribuição dos resíduos bem como diversas estatís ticas descritivas como média mediana desviopadrão assimetria curtose e a mais importante o teste de JarqueBera Já vimos isso em capítulo anterior Portanto não há necessidade de explorar 138 Capítulo 6 Regressão Simples os resultados Pelo resultado reportado JB91400010 rejeitamos a hipótese nula ou seja não podemos afirmar que os resíduos possuem distribuição normal 2 622 O teste de Independência BDS Já para o teste de independência opção que não está disponível no diagnósticos dos resíduos temos que primeiro salvar a série dos resíduos Esse teste pode ser feito para qualquer série de tempo e o objetivo é saber se os dados podem ser considerados independentes Nesse caso há dois importantes parâmetros para escolher O primeiro é a distância entre um par de pontos denominado de ε epsilon Para uma série ser verdadeiramente iid considerando qualquer par de pontos a probabilidade de que a distância entre esses pontos seja menor ou igual a ε ou seja c1ε deve ser constante O segundo parâmetro é a dimensão do teste ou seja em quantos pares de pontos o mesmo é aplicado Por exemplo a partir de uma série de dados qualquer yt com t12T podemos criar vários pares de mesma distância ytysyt1ys1ytm1ysm1 Note que foram criados m pares que possuem cmε probabilidades associadas Assim como temos m pares então H0 cmε cm 1 ε independência Ou seja a probabilidade associada a todos os pares cmε é igual ao produto de todas as probabilidades individuais cm 1 εSe isso se verificar então os dados são independentes Vamos aplicar esse teste nos resíduos da equação 1 qxt 18389 6616 0647 0063ywt εt Com a eq1 aberta vá em ProcMake Residual Series e escolha um nome para a série dos resíduos da equação 1 Abra a série de resíduos e a seguir vá em ViewBDS Independence test A seguir selecione como mostrado na figura 621 e clique em OK Figura 621 Teste BDS Dentre as opções de escolha de ε que irá determinar a distância para os pontos recomendase Fraction of pairs que tem menos influência da distribuição dos dados As demais opções são variações para a definição do valor de ε Ao especificar a dimensão máxima em 6 o teste é aplicado para cada valor de m2m6 O terceiro conjunto de opção é para o cálculo das probabilidades do teste Essa pode ser utilizada em séries de dados pequenos que não possuem uma distribuição muito bem definida Nesse caso a distribuição do teste BDS seria diferente da curva normal A parte de resultados que interessa analisar é a mostrada na figura 621 Note que pelo pvalor rejeitamos 2Lembrese que a hipótese nula nesse caso é de distribuição normal 62 Diagnóstico Dos Resíduos 139 a hipótese nula de independência ou seja os resíduos não são independentes O teste pode ser apresentado da seguinte forma BDSm2 01010000 e assim sucessivamente até o valor de m 6 623 Correlograma Qstat Para entender o teste de LjungBox é necessário compreender o que o cálculo da autocorrelação representa para uma série de tempo Conhecemos a correlação que existe entre duas variáveis A ideia é a mesma para o caso da autocorrelação Nesse caso queremos justamente medir o grau de relação que existe entre a informação no tempo t para uma variável y e a informação no tempo k para a mesma variável Isso é feito no EViews R a partir de tk T tk1yt yytk y T t1yt y2 Onde k é justamente o lag entre as duas informações e y é a média da série Vejamos o exemplo dos resíduos da equação de regressão qxt 18389 6616 0647 0063ywt εt Esses possuem média zero e considerando k1 temos t1 187 t2ytyt1 187 t1yt2 y2y1 y3y2 y187y186 y2 1 y2 2 y2 187 0825 O mesmo pode ser feito para a autocorrelação de ordem k que se desejar Com isso construímos a função de autocorrelação que irá mostrar como essa se comporta ao longo do tempo O passo seguinte seria testar se essa autocorrelação é estatisticamente significativa Nesse caso recorremos ao teste de LjungBox que tem a seguinte forma Q TT 2 k j1 t2 j T j onde T é o número de observações k é o lag máximo para o teste e tj é a autocorrelação de ordem j A hipótese nula para o teste é ausência de autocorrelação até o lag k e o mesmo possui distribuição quiquadrado com os graus de liberdade dados pelo número de autocorrelações que se está medindo Para operacionalizar esse teste após rodar uma regressão vá em ViewResidual Diagnos ticCorrelogram Qstatistics A seguir escolha o número de lags e clique em OK conforme figura 622 Um ponto importante para lembrar é que o teste pode ser sensível ao número de lags que é escolhido Figura 622 Teste de LjungBox 140 Capítulo 6 Regressão Simples Para o nosso exemplo o teste de LjungBox para 36 lags sinaliza que pelo menos até o lag 7 não é possível aceitar a hipótese nula de ausência de autocorrelação nos resíduos Ou seja há evidência de autocorrelação Podemos usar a fórmula acima para encontrar o valor do teste Q onde T187 e a autocorrelação de ordem 1 é t1 0825 Q 1871872 1 j1 08252 1871 129270 A forma de apresentar os resultados é tal como Q1 1292700000 624 Correlograma dos Resíduos ao Quadrado O correlograma pode ser usado para identificar a presença ou não de heteroscedasticidade nos dados Nesse caso ao invés de calcular a função de autocorrelação considerando os resíduos como no teste Q anterior a mesma é feita com base nos resíduos ao quadrado Sendo assim primeiro é calculada a função de autocorrelação para cada lag e a seguir é aplicado o teste Q Sua forma de avaliação é tal como anteriormente Figura 623 Correlograma dos Resíduos ao Quadrado Fazendo esse teste para os resíduos ao quadrado da equação 1 figura 623 podemos ver que não é possível aceitar a hipótese nula de ausência de autocorrelação nos resíduos ao quadrado sinalizando que os mesmos podem ter heteroscedasticidade 625 Teste de Autocorrelação LM Esse teste é feito com base na hipótese nula de ausência de autocorrelação até o lag especifi cado Após ter estimado a equação de regressão como fizemos anteriormente no teste Q vá em ViewResidual DiagnosticsSerial Correlation LM Test A seguir escolha o lag máximo que gostaria de testar no nosso exemplo colocamos 2 e clique em OK O que o EViews R faz é pegar a série de resíduos da primeira regressão e fazer uma nova regressão entre esses resíduos seus valores passados e também a variável independente A figura 624 reporta o resultado do teste Programação 621 O teste LM tem distribuição quiquadrado e com graus de liberdade de acordo com o número de lags avaliados sob a hipótese nula Para encontrar o respectivo pvalor do teste no EViews R clique em Window e depois selecione Command A seguir escreva o comando abaixo para encontrar o pvalor scalar testef testefchisq1422232 62 Diagnóstico Dos Resíduos 141 Figura 624 Teste LM para Autocorrelação Dica lembre de executar uma linha por vez quando utilizar a janela de comandos Figura 625 Teste LM Regressão dos Resíduos Note que há duas estatísticas mos tradas O teste F não tem uma distri buição amostral finita conhecida sob a hipótese nula mas mesmo assim é mostrado seu resultado A seguir tem a segunda estatística que possui uma distribuição quiquadrado sendo mais recomendada para avaliação do teste de autocorrelação Para enten der como foi feito o teste basta olhar no final dos resultados a estimativa de uma equação para os resíduos figura 625 Como pode ser visto pelos resul tados acima para ambas as estatís ticas rejeitamse a hipótese nula de ausência de autocorrelação nos resí duos Esse teste pode ser apresentado da seguinte forma LM2 1422230000 Programação 622 Para fazer o teste LM de autocorrelação rodamos a regressão e salvamos a série dos resíduos A seguir fazemos uma regressão desses resíduos com a variável independente e o resíduo com 1 defasagem Por fim é usado um teste quiquadrado com 1 grau de liberdade no valor de T R2 da regressão dos resíduos smpl 2000M1 2015M7 equation eq1ls qxsa ywsa c eq1makeresid resid1 equation autocorls resid1 ywsa c resid11 matrix12 testelm testelm11autocorregobsr2 testelm12chisqtestelm111 142 Capítulo 6 Regressão Simples Figura 626 Teste de Heteroscedasticidade BreuschPaganGodfrey Alternativamente podemos fazer um loop para que sejam testados vários lags no teste LM e armazenar os resultados em uma tabela smpl 2000M1 2015M7 table112 testelm testelm11valor do teste testelm12pvalor equation eq1ls qxsa ywsa c eq1makeresid resid1 for i1 to 10 equation eq10ls resid1 ywsa c resid11 to i testelmi11eq10regobsr2 testelmi12chisqeq10regobsr2i next 626 Testes de Heteroscedasticidade Na literatura da área há vários testes de heteroscedasticidade que podem ser aplicado a uma série de templo O EViews R apresenta algumas opções que discutiremos a seguir e que são aplicados à série dos resíduos da nossa equação BreuschPaganGodfrey Esse teste é feito a partir de uma regressão auxiliar dos resíduos ao quadrado relativamente a todas as variáveis independentes Nesse caso suponha que se tenha feito a seguinte regressão qxt 18389 6616 0647 0063ywt εt E que se pretende investigar a existência de heteroscedasticidade nos resíduos Nesse caso podemos fazer a regressão ε2 t c1c2ywt E testar a hipótese nula de ausência de heteroscedasticidade a partir de 3 diferentes estatísticas propostas pelo EViews R Portanto após feita a regressão podemos ir em ViewResidual Diagnos ticsHeteroskedastic Tests e selecionar o teste de BreuschPaganGodfrey tal como mostrado na figura 626 O primeiro teste mostrado é um teste F Esse irá testar se todos os coeficientes da equação são estatisticamente iguais a zero Note que seu valor é igual ao teste F mostrado ao fim da regressão Pelo pvalor de 0190 podemos dizer que não é possível rejeitar a hipótese nula de ausência de heteroscedasticidade a pelo menos 18 de significância 62 Diagnóstico Dos Resíduos 143 O segundo teste é dado pela multiplicação do número de observações e o R2 da regressão No nosso exemplo ObsR2 18700092 1725 O mesmo tem distribuição X2 e pelo resultado não é possível rejeitar a hipótese nula a por exemplo 18 de significância Programação 623 Os testes de heteroscedasticidade são aplicados após ter rodado uma re gressão Dessa forma só é solicitado após a equação de regressão ter sido especificada Para aplicar um teste à eq1 usamos a função abaixo smpl 2000M1 2015M7 equation eq1ls qxsa ywsa c eq1hettesttypeBPG regs Utilizando essa função é aberta uma janela com o resultado Alternativamente podemos aplicar o teste BPG por uma equação de regressão Note que construímos o teste a partir da regressão original fazendo a série dos resíduos e aplicando uma nova regressão de nome bpg A seguir armazenamos a estimativa do teste no escalar bpgtest e depois o pvalor no escalar quiteste smpl 2000M1 2015M7 equation eq1ls qxsa ywsa c eq1makeresid res1 equation bpgls res12 ywsa c scalar bpgtestbpgr2regobs scalar quitestechisqbpgtestbpgncoef1 Agora que sabemos como fazer o teste para uma única equação podemos inserir o mesmo no loop de 100 regressões que usamos anteriormente Note que nesse caso não usamos mais o termo scalar e sim criamos a matriz que irá armazenar os resultados dos vários testes de heteroscedasticidade heterosc Nesse caso na primeira coluna estão os vários resultados para o valor do teste e na segunda coluna o pvalor do mesmo seguindo um teste quiquadrado smpl 2000M1 2015M7 equation eq1ls qxsa ywsa c matrix1003 coef coef1002eq1coefs1 coef1001eq1coefs11975eq1stderrs1 coef1003eq1coefs11975eq1stderrs1 matrix1002 heterosc eq1makeresid res1 equation bpgls res12 ywsa c heterosc1001bpgr2regobs heterosc1002chisqbpgr2regobsbpgncoef1 for i1 to 99 smpl 2000M1i 2004M12i equation eq2ls qxsa ywsa c 144 Capítulo 6 Regressão Simples Figura 627 Teste de Heteroscedasticidade Harvey coefi2eq2coefs1 coefi1eq2coefs11975eq2stderrs1 coefi3eq2coefs11975eq2stderrs1 eq2makeresid res2 equation bpgls res22 ywsa c heterosci1bpgr2regobs heterosci2chisqbpgr2regobsbpgncoef1 next smpl all Harvey Para fazer esse teste primeiro rodamos a regressão normal tal como mostrado abaixo qxt 18389 6616 0647 0063ywt εt A seguir salvamos os resíduos e fazemos uma regressão no qual diferentemente do teste de BreuschPaganGodfrey no teste de Harvey usamos o logaritmo tal como mostrado a seguir logε2 t c1c2ywt Tal regressão irá produzir um R2 e com isso podemos construir a estatística do teste a partir de T R2 Outra estatística fornecida é a Fstatistics que irá testar se todos os coeficientes da regressão dos resíduos são estatisticamente iguais a zero como apresentado na figura 627 Programação 624 Para fazer o teste de Harvey usamos o mesmo comando de antes hettest mas modificamos o tipo para harvey smpl 2000M1 2015M7 equation eq1ls qxsa ywsa c eq1hettesttypeharvey regs Como a diferença entre o método de Harvey e o de BPG está apenas no fato de que aquele usa logε2 t podemos usar a mesma sequencia de comandos de antes e modificar apenas a estimativa de regressão do teste como mostrado abaixo smpl 2000M1 2015M7 equation eq1ls qxsa ywsa c eq1makeresid res1 equation harveyls logres12 ywsa c scalar harveytestharveyr2regobs scalar quitestechisqharveytestharveyncoef1 smpl all 62 Diagnóstico Dos Resíduos 145 Glejser Para fazer esse teste primeiro rodamos a regressão normal tal como mostrado abaixo qxt 18389 6616 0647 0063ywt εt A seguir salvamos os resíduos e fazemos uma regressão no qual diferentemente do teste de Harvey utilizamos os resíduos em módulo tal como mostrado a seguir εt c1c2ywt A figura 628 mostra os resultados para esse teste Na primeira linha está o teste F que testa se todos os coeficientes da regressão dos resíduos são iguais a zero A seguir está o teste que considera T R2 tal como feito anteriormente nos dois outros testes Figura 628 Teste de Heteroscedasticidade Glejser Programação 625 O teste de Glejser pode ser feito modificando no comando hettest o tipo para glejser smpl 2000M1 2015M7 equation eq1ls qxsa ywsa c eq1hettesttypeglejser regs Nesse teste usamos o valor absoluto dos resíduos e não os resíduos ao quadrado E isso pode facilmente ser modificado no nosso comando usando abs tal como mostrado a seguir smpl 2000M1 2015M7 equation eq1ls qxsa ywsa c eq1makeresid res1 equation glejserls absres1 ywsa c scalar glejsertestglejserr2regobs scalar quitestechisqglejsertestglejserncoef1 smpl all ARCH Sem dúvida esse é um dos testes mais recomendados para identificar a presença de heteroscedasti cidade nos resíduos de uma regressão Partindo do nosso modelo de regressão qxt 18389 6616 0647 0063ywt εt Salvamos os resíduos e fazemos uma nova regressão no qual diferentemente dos testes anterio res também usamos os resíduos ao quadrado em defasagens como variável explicativa tal como mostrado a seguir 146 Capítulo 6 Regressão Simples Figura 629 Teste de Heteroscedasticidade ARCH ε2 t c1c2ε2 t1 São mostrados dois testes o Fstatistic e o T R2 Em ambos podemos ver que não é possível aceitar a hipótese nula de homoscedasticidade Um ponto interessante desse modelo é que ele difere do encontrado anteriormente pelos outros testes de heteroscedasticidade Porém devido ao poder do teste recomendamos que o leitor considere fortemente o teste ARCH como o mais importante Programação 626 Para fazer o teste ARCH via programação modificamos no comando hettest o tipo de teste para arch Porém nesse caso devemos especificar quantos lags serão utilizados para o teste Como exemplo usamos uma defasagem para os resíduos ao quadrado como mostrado a seguir smpl 2000M1 2015M7 equation eq1ls qxsa ywsa c eq1hettesttypearch lags1 regs Esse teste também pode ser construído no EViews R a partir dos comandos mostrados a seguir Primeiro é feita a estimativa do modelo inicial e os resíduos são salvos A seguir como queremos apenas 1 lag fazemos uma regressão dos resíduos ao quadrado tendo como variável independente a dependente com 1 defasagem Por fim aplicamos a estatística quiquadrado smpl 2000M1 2015M7 equation eq1ls qxsa ywsa c eq1makeresid res1 equation archls res12 c res121 scalar archtestarchr2regobs scalar quitestechisqarchtest1 smpl all Programação 627 O loop a seguir faz 100 regressões acrescentando a cada passo um novo mês na amostra A seguir faz os quatro testes de heteroscedasticidade apresentados BPG Glejser Harvey e ARCH e salva o pvalor em uma matriz com 100 linhas e quatro colunas Esse exercício irá permitir avaliar para qual sequência de dados é possível aceitar ou rejeitar a hipótese nula de ausência de heteroscedasticidade 63 Diagnóstico De Estabilidade 147 smpl 2000M1 2015M7 equation eq1ls qxsa ywsa c matrix1004 testeh for i1 to 100 smpl 2000M1i 2004M12i equation eq3ls qxsa ywsa c eq3makeresid res3 equation bpgls res32 ywsa c testehi1chisqbpgr2regobsbpgncoef1 equation harveyls logres32 ywsa c testehi2chisqharveyr2regobsharveyncoef1 equation glejserls absres3 ywsa c testehi3chisqglejserr2regobsglejserncoef1 equation harchls res32 c ar1 testehi4chisqharchr2regobs1 next smpl all 63 Diagnóstico De Estabilidade Avaliamos anteriormente diversas características dos resíduos que são importantes para sinalizar a eficácia do modelo formulado Essas são investigações consideradas padrão como a normalidade nos resíduos a autocorrelação a independência e a heteroscedasticidade Porém alguns desses resultados podem estar sendo influenciados pela presença de quebra estrutural e que pode se manifestar de várias formas na média nos parâmetros ou na tendência Em síntese os coeficientes podem não ser estáveis ao longo do tempo e isso resulta em problemas de formulação A seguir apresentamos alguns testes disponíveis noEViews R parar lidar com a estabilidade nos parâmetros 631 Teste de Chow Esse é um dos testes mais antigos e simples para identificar a existência ou não de quebra estrutural Aqui a proposta é a partir da especificação de uma data na amostra de dados dividir o mesmo em 2 partes rodar três regressões e comparar os resultados A primeira regressão denominada de modelo nãorestrito é feita para todo o conjunto de dados A segunda considerada modelo restrito estima uma regressão entre a data inicial e a data especificada como de mudança estrutural E por fim a terceira regressão é feita entre essa data especificada e o fim do período amostral Assim suponha que se tenha feito a seguinte regressão qxt 18389 6616 0647 0063ywt εt E que se quer verificar se ocorreu uma mudança estrutural em 2008M1 tanto na constante quanto no coeficiente de inclinação Nesse caso especificamos essa data e o EViews R irá rodar duas regressões da forma qxt c1c2ywt εtentre 2000M1 e 2007M12 qxt c3c4ywt εtentre 2008M1 e 2015M7 Onde a primeira usa os dados entre a data inicial e 2007M12 e a segunda entre 2008M1 e a data final Note que a data escolhida é utilizada na segunda regressão A seguir é feito um teste F para 148 Capítulo 6 Regressão Simples Figura 630 Teste de Chow comparar os dois modelos com a estimativa para todo o período amostral Esse teste utiliza a soma ao quadrado dos resíduos SSR de cada uma das três regressões Fstat SSRSSR1SSR2 k SSR1SSR2 T2k Onde SSR é a soma ao quadrado dos resíduos da regressão que usa todo o conjunto de dados SSR1 é a soma dos resíduos ao quadrado para a regressão do período pre mudança estrutural e SSR2 é a soma dos resíduos ao quadrado da segunda regressão que usa o período pos quebra estrutural Por fim T é o número de dados e k o número de parâmetros da regressão A hipótese nula é de que as duas subamostras são iguais ou seja não tem mudança estrutural Um ponto importante nesse teste é que caso não seja especificado o EViews R irá testar a instabilidade em todos os parâmetros Vejamos como isso pode ser feito no EViews R Após estimar a equação de regressão para todo o período amostral vá em ViewStability DiagnosticsChow Breakpoint Test Na janela que vai abrir escreva a data de mudança estrutural que para o nosso exemplo é 2008M1 janeiro de 2008 Abaixo estão os parâmetros que se quer testar a mudança estrutural tanto para a constante quanto para a elasticidaderenda Nesse nosso exemplo vamos testar uma mudança estrutural na constante e elasticidaderenda Na janela de resultados figura 630 primeiro é especificada a data de quebra estrutural a seguir a hipótese nula e os parâmetros onde ocorreram a mudança Por fim a amostra de dados utilizada Para encontrar a estatística F vamos especificar cada uma das 3 regressões Para a que contempla todo o conjunto amostral temos que SSR 36438213 Já na regressão que vai de 2000M1 até 2007M12 encontrase SSR1 2816406 e para a da segunda parte de dados SSR2 8719257 O conjunto amostral é T187 e o número de parâmetros é k2 Portanto a estatística F é Fstat 3643821328164068719257 2 28164068719257 1874 197525 A estatística F os testes de razão de verossimilhança e Wald trabalham sob a hipótese nula de não existência de mudança estrutural para toda a amostra Esses dois últimos possuem distribuição X2 com mkv graus de liberdade onde m a quantidade de quebras e kv os número de parâmetros testados na mudança estrutural Para o nosso exemplo figura 630 baseado nos três testes rejeitamos a hipótese nula ao nível de confiança de 99 e portanto a data escolhida 2008M1 pode ser considerada como de quebra estrutural do modelo especificado 63 Diagnóstico De Estabilidade 149 Programação 631 O teste de Chow tem distribuição quiquadrado para o teste LR e de Wald considerando como graus de liberdade q mkv Por isso utilizamos o comando chisqvalor do teste graus de liberdade Para o teste F a distribuição é a F Logo seu pvalor é dado por 1cfdistFstatqTqk onde Fstat é o valor do teste F q mkv é o número de restrições sob a hipótese nula e T q k é o número de observações menos as restrições e os parametros da regressão original Assim para encontrar o respectivo pvalor dos testes no EViews R clique em Window e depois selecione Command A seguir escreva os comandos abaixo e execute um de cada vez scalar testeF1cfdist1975252183 scalar testeLRchisq2150822 scalar testeWaldchisq3950502 Programação 632 Para aplicar o teste de Chow primeiro especificamos a regressão e a seguir o teste colocando a data que queremos testar para ver se ocorreu uma mudança estrutural smpl 2000M1 2015M7 equation eq1ls qxsa ywsa c eq1chow 2008M1 Um aspecto ruim do teste de Chow é que devemos especificar a data da quebra estrutural o que dificulta encontrar o ponto ideal da quebra Uma forma de contornar isso é usar um loop No exemplo abaixo começamos com a primeira data de quebra em 2008M1 e a seguir são rodadas 50 regressões Note que a cada momento após escolher as datas de quebra são feitas duas regressões restritas uma para a primeira parte e outra para a parte final A seguir feito os testes F e de Wald calculados os pvalores e armazenados os resultados em uma tabela chamada chowresult smpl 2000M1 2015M7 equation eq5ls qxsa ywsa c scalar chowfteste scalar chowfpvalor scalar chowwaldteste scalar chowwaldpvalor table chowresult chowresult11Data de Mudança Estrutural chowresult12Estatística F chowresult13Prob chowresult14Teste de Wald chowresult15Prob for i1 to 50 smpl 2000M1 2007M11i equation eq6ls qxsa ywsa c smpl 2007M12i 2015M7 equation eq7ls qxsa ywsa c chowftesteeq5ssreq6ssreq7ssreq5ncoefeq6ssr eq7ssreq5regobs2eq5ncoef chowfpvalor1cfdistchowfteste2eq5regobseq5ncoefeq6ncoef 150 Capítulo 6 Regressão Simples chowwaldtestetransposeidentityeq5ncoefeq6coefs eq7coefs inverseeq6coveq6se2eq7coveq7se2identity eq5ncoefeq6coefseq7coefseq5regobs2eq5ncoef eq6ssreq7ssr chowwaldpvalorchisqchowwaldtesteeq5ncoef chowresulti11otods1 chowresulti12 chowfteste chowresulti13chowfpvalor chowresulti14chowwaldteste chowresulti15chowwaldpvalor next smpl all O teste de Chow também pode ser especificado de forma a identificar a presença de quebra estrutural apenas em um dos parâmetros ou em parte Com a equação aberta vá em ViewStability DiagnosticsChow Breakpoint Test e a seguir para testar mudanças na constante especificase a data e depois deixa escrito apenas c na parte de baixo da janela Programação 633 Para especificar em quais parâmetros queremos aplicar o teste de Chow adicionamos ao comando chow depois declaração da data de mudança estrutural a instrução seguido do nome das variáveis eq1chow 2008M1 ywsa O EViews R também permite testarmos mais de uma quebra estrutural com o teste de Chow eq1chow 2008M1 2010M7 ywsa c 632 Teste de QuandtAndrews O teste de Chow é muito simples e de difícil solução prática uma vez que devemos testar várias datas e formatos para ter certeza de onde veio a instabilidade e em que parâmetro Uma evolução natural seria permitir que fossem feitos diversos testes ao mesmo tempo em uma sequência e ao final escolher a data apropriada Essa é justamente a proposta do teste de QuandtAndrews Esse teste pode ser aplicado para identificar mais de uma data de quebra estrutural usando como base a ideia do teste de Chow Nesse caso o mesmo é aplicado a cada informação entre a data de início e final do conjunto de dados A hipótese nula é de ausência de quebra estrutural e pode ser feito para toda a equação considerando todos os parâmetros ao mesmo tempo ou então para o caso de uma equação linear para cada um dos parâmetros de forma isolada Uma diferença importante entre esse teste e do de Chow é que aqui especificamos o trimming ou seja o percentual de dados que são isolados do teste e não são utilizados No eviews como default é fornecido o valor 15 Se escolher esse então na verdade estamos retirando 15 dos dados 75 do início da amostra e 75 do final e o teste é feito com o restante dos dados entre dois pontos τ1 e τ2 Como pode ser visto na figura 631 também escolhemos qual parâmetro será utilizado para o teste No exemplo abaixo aplicamos o mesmo para os dois parâmetros da nossa regressão simples o da elasticidaderenda e a constante Por fim como opcional especificamos um nome para a série dos testes tanto para o LR quanto para o teste de Wald O que acontece com esse teste é que como o mesmo é aplicado a cada uma das datas entre τ1 e τ2 então iremos produzir uma estatística LR e Wald para cada uma dessas datas Com isso estaremos formando uma série com o resultado do teste A estatística LR com distribuição F compara um modelo restrito com um não restrito e após 63 Diagnóstico De Estabilidade 151 Figura 631 Teste de Quebra Estrutural de QuandtAndrews Figura 632 Resultados dos Testes LR e Wald ter todos os resultados a data da quebra é escolhida a partir do valor máximo do teste como em MaxF max τ1ττ2Fτ Pelos resultados do teste de QuandtAndrews aplicado ao modelo de regressão simples qxt 18389 6616 0647 0063ywt εt podemos ver que rejeitamos a hipótese nula de ausência de quebra estrutural Nesse caso há uma mudança estrutural e essa é especificamente em agosto de 2008 As duas estatísticas são mostradas no gráfico 632 Note que ambas revelam que o valor máximo para o teste tanto o LR quanto Wald é em agosto de 2008 Com a escolha de um trimming de 15 foram eliminados 29 dados do início e outros 28 do final da série restando 130 datas para serem testadas 152 Capítulo 6 Regressão Simples Figura 633 Teste de Previsão de Chow Quebra Estrutural Programação 634 Para fazer o teste de QuandtAndrews usamos a função ubreak e que pode ser aplicada a qualquer equação No exemplo abaixo aplicamos a mesma à regressão simples Uma opção interessante é pedir a série dos testes de wald e de LR usados para selecionar o ponto de quebra estrutural O número após a função se refere ao tamanho da parte da amostra que é retirada do teste No caso de 15 estamos escolhendo 15 dos dados smpl 2000M1 2015M7 equation eq1ls qxsa ywsa c eq1ubreakwfnametestewaldlfnametestelr 15 633 Teste de Previsão de Chow Aqui é feita duas regressões uma para todo o conjunto de dados e outra apenas com os dados que vão até a data anterior da quebra estrutural São reportadas duas estatísticas a primeira é o teste F que é dado por Fstat SSRSSR1 T2 SSR1 T1k Onde SSR é a soma dos resíduos ao quadrado da regressão completa SSR1 é a soma dos resíduos ao quadrado da regressão com dados que vão até T1 que é o número de dados utilizados nesse período T1 é o número de dados da segunda parte da regressão e k é o número de parâmetros da regressão completa A hipótese nula é de ausência de quebra estrutural LR 2lrestrito lnaorestrito Para fazer esse teste vá em ViewStability DiagnosticsChow Forecast Test Os resultados do exemplo de um teste de quebra estrutural para a data 2008M8 são mostrados na figura 633 Note que pelos resultados do teste F rejeitamos a hipótese nula de ausência de quebra estrutural confirmando o resultado encontrado pelo teste de QuandtAndrews anterior A estatística F pode ser calculada a partir de Fstat 364382133573942 84 3573942 1032 11056 E para a estatística LR usamos LR 2758298541196 434204 63 Diagnóstico De Estabilidade 153 Figura 634 Teste de Ramsey Quebra Estrutural 634 Teste de Ramsey Aprendemos anteriormente a testar se os resíduos possuem distribuição normal se há presença de heteroscedasticidade ou então autocorrelação Porém há outros problemas que podem aparecer na nossa regressão como por exemplo de variável omitida de má especificação da forma funcional ou a correlação entre a variável independente e os resíduos Esses aspectos irão resultar que o estimador de mínimos quadrados é viesado e não consistente e dessa forma o vetor dos resíduos não terá média zero ver Ramsey1969 Assim o teste é feito considerando como hipótese nula que os resíduos da equação são distribuídos normalmente com média zero e variância constante contra a hipótese alternativa de que a média dos resíduos não é zero Na figura 634 especificamos que o número de termos a serem considerados no teste é 1 ou seja usamos como variável adicional o quadrado da variável dependente qxt α1 β1ywt qx2 t εt Assim temos que o teste considera as seguintes hipóteses H0 qxt α1 β1ywt εt Ha qxt α1 β1ywt qx2 t εt E pode ser visto como um teste de variável omitida A figura 634 apresenta os resultados para esse teste Note que são fornecidas três estatísticas para o teste e todas apontam para a não aceitação da hipótese nula Portanto a nossa equação possui problema de especificação 635 Estimativas Recursivas As Estimativas Recursivas podem ser acessadas em ViewStability DiagnosticsRecursive Esti mates Essa seção é aplicada de seis formas diferentes cada uma fornecendo uma informação específica Recursive Residual Para esse teste são feitas várias regressões a partir do método MQO mudando apenas o período amostral A primeira regressão é feita com uma quantidade de informações igual ao número de coeficientes Considerando a nossa equação básica com a quantidade como função da renda temos 2 coeficientes a constante e a elasticidade renda tal como qxt α1 β1ywt εt 154 Capítulo 6 Regressão Simples Figura 635 Resultado dos Resíduos Recursivos Note que temos k2 onde k é o número de coeficientes Assim a primeira regressão é feita considerando os 2 primeiros dados da amostra O resultado para esses coeficientes é utilizado para prever o valor da variável dependente no período seguinte Depois é calculada a diferença entre o valor previsto e o verdadeiro valor e dividida pela variância da previsão Esse resultado é denominado de recursive residual e seu valor é armazenado em um vetor A seguir acrescentamos o terceiro dado da amostra e fazemos novamente a regressão en contrando os coeficientes fazendo a previsão para um passo à frente dividindo pela variância da previsão e encontrando o resíduo Esse resíduo é armazenado no vetor de resíduos Esse procedimento continua até que se utilize todo o conjunto amostral ou seja as T observações Sendo assim fazemos um total de T k 1 regressões e obtemos um total de T k 1 estimativas para os resíduos Vejamos como fica esse processo a partir dos dados da equação acima A primeira regressão com apenas os dois primeiros dados ou seja usando 2000M1 a 2000M2 produz o seguinte resultado qxt 6406569106ywt εt Se usarmos esses coeficientes para prever o valor de qx para 2000M3 encontramos qx2000M3 640656910677169εt 62082 O verdadeiro valor é qx2000M3 55747 gerando um resíduo de valor 6335 A seguir temos que calcular a variância da previsão e depois recursiveresidual2000M3 6335 2169 2920 Esse procedimento é repetido até o fim da amostra gerando uma sequência de valores para os resíduos recursivos O EViews R retorna o gráfico dessa sequência com o respectivo intervalo de confiança conforme apresentado na figura 635 Valores que estão fora do intervalo sinalizam instabilidade nos parâmetros da equação Note que a data entre 2008M8 e 2009M6 está fora do intervalo de confiança sinalizando possível quebra estrutural nesse período Teste CUSUM Os resíduos recursivos obtidos do teste anterior recursive residual são usados para produzir o teste CUSUM ou seja esse teste nada mais é que a soma cumulativa dos resíduos encontrados no teste anterior Nesse caso esse é dividido pelo seu respectivo desviopadrão e depois é feita 63 Diagnóstico De Estabilidade 155 Figura 636 Teste CUSUM Figura 637 Teste do CUSUM ao Quadrado a soma desses resíduos Se o valor ficar fora do intervalo crítico de 5 do teste então há uma sinalização de instabilidade nos coeficientes da equação Ao aplicar esse teste à nossa equação acima encontramos o seguinte resultado mostrado na figura 636 Note que em 2009M9 o teste ultrapassa o valor crítico a 5 sinalizando uma instabilidade no modelo Teste do CUSUM ao Quadrado Da forma como o teste é calculado seria como obter a variância dos resíduos recursivos Na verdade deriva do teste CUSUM e do teste recursivo só que aqui elevamos os resíduos ao quadrado e depois somamos os mesmos A expectativa do resultado desse teste sob a hipótese de estabilidade dos parâmetros é que inicie em zero e termine em 1 e que seu resultado fique dentro do intervalo de 5 de significância Aplicando o teste ao nosso modelo encontramos que há uma instabilidade entre 2001M12 e 2013M12 figura 637 Teste de Previsão OneStep Esse teste também utiliza os resultados dos resíduos recursivos complementando a análise do mesmo com o desviopadrão da amostra total Seu resultado para o nosso modelo é mostrado na figura 638 Note que há duas informações Primeiro a série do resíduo recursivo é mostrada 156 Capítulo 6 Regressão Simples Figura 638 Teste de Previsão OneStep Figura 639 Teste de Previsão NStep novamente com seus valores no eixo direito Além desse também é mostrado o pvalor do teste ou seja a probabilidade associada à rejeição da hipótese de estabilidade dos parâmetros Nos pontos com valores menores significa a não aceitação da hipótese nula de estabilidade Como pode ser visto há vários desses pontos em especial entre 2007 e 2015 Teste de Previsão Nstep Esse teste também usa os resultados dos resíduos recursivos e é equivalente ao teste de Chow mas sem a necessidade de informar cada uma das datas que se queira testar Ou seja o teste é feito para várias datas e retorna o valor dentro de um intervalo de confiança e com o pvalor Os resultados paro o nosso modelo são apresentados na figura 639 Coeficientes Recursivos Esse teste pode ser utilizado para identificar como é o comportamento de cada um dos coeficientes ao longo do tempo Para tanto o método segue a estimativa feita anteriormente quando foram obtidos os resíduos recursivos para encontrar o valor a cada momento do tempo adicionando a cada passo uma nova observação Para o nosso modelo o teste foi feito para os dois coeficientes e seus resultados sinalizam 63 Diagnóstico De Estabilidade 157 a Constante b Elasticidade Renda Figura 640 Coeficientes Recursivos instabilidade presente nas informações adicionadas até meados de 2004 conforme mostrados na figura 640 636 Leverage Plots Figura 641 Opções Leverage Plots Esse método gráfico fornece a in formação sobre a presença de pos síveis outliers a partir de várias re gressões e a comparação dos resíduos Clique em ViewStability Diagnos ticsLeverage Plots que serão mos tradas as opções em uma janela Na primeira parte devem ser definidas as variáveis que serão utilizadas na análise No nosso exemplo sabemos que a variável qxsa é dependente e especificamos ywsa e c constante como regressores A seguir selecione a opção para adicionar uma linha de tendência e para a informação parcial que é a mais ilustrativa Por fim espe cifique um nome para que ao salvar as séries de resíduos resultantes se tenha um nome como complemento Nesse exemplo serão geradas quatro séries adicionais no workfile Duas séries são geradas usando a variável dependente Na primeira temos a sé rie de nome qxsapywsalv que representa os resíduos da regressão qxt cεt A segunda é dada pela série de nome qxsapclv e representa os resíduos da regressão qxt βywt εt A seguir temos duas outras séries que são geradas a partir do uso das variáveis independentes Nesse caso como temos apenas uma independente teremos duas séries derivadas A primeira é a 158 Capítulo 6 Regressão Simples a Constante b Ywsa Figura 642 Leverage Plots série de nome clv que representa a série de resíduos da regressão ywt cεt De acordo com o nosso exemplo serão gerados dois gráficos de dispersão O primeiro mostrado na figura 642a representa a relação entre a série clv e qxsapclv A seguir o segundo gráfico figura 642b representa a relação entre a série ywsalv e qxsapywsalv 637 Estatísticas de Influência Uma forma de identificar a presença de outliers é através das estatísticas de influência Uma informação é considerada como um outlier se ela produz um impacto significativo na regressão Assim partindo dessa definição essa estatística é aplicada ao conjunto de dados para identificar o quanto que uma única observação pode modificar o modelo de regressão São seis diferentes estatísticas que podem ser utilizadas Vá em ViewStability DiagnosticsInfluence Statistics A seguir selecione três estatísticas como mostrado na figura 643 Os resultados serão salvos nas respectivas séries IS1 IS2 e IS3 e mostrados em um conjunto de gráficos Note na figura 644 que para cada uma das estatísticas há um intervalo de confiança Os testes RStudent e COVRATIO apontam 2008M1 como um outlier e também RStudent junto do teste DFFITS sinalizam para a existência de um outlier em 2014M8 64 Previsão Forecast A partir do momento que temos a estimativa dos parâmetros do modelo podemos fazer previsões para o futuro e mais do que isso encontrar um intervalo de confiança para essa previsão De um modo geral nosso modelo simples pode ser representado pela equação linear qxt α1 β1ywt εt onde os valores de yw são conhecidos Lembrese que os dados são ajustados sazonalmente Para cada valor de ywtn utilizado podemos encontrar um respectivo valor de qxtn o que nos permitirá obter futuramente o erro de previsão Sendo assim podemos modificar essa equação linear como forma de obter o erro de previsão 64 Previsão Forecast 159 Figura 643 Opções Estatísticas de Influência a RStudent b DFFITS c COVRATIO Figura 644 Teste de Quebra Estrutural Estatística de Influência q𝑥𝑡q𝑥ₜαβywₜεₜq𝑥ₜ Além disso usando o fato ³ de que q𝑥ₜα1β1ywₜεₜ podemos substituir o mesmo na equação acima e obter q𝑥ₜq𝑥ₜαβywₜεₜαβywₜ q𝑥ₜq𝑥ₜααββywₜεₜ Esse valor que encontramos corresponde ao valor médio de erro de previsão Porém para fazer inferência estatística sobre a previsão devemos conhecer outros resultados em especial a variância do erro de previsão A partir da equação acima aplicamos o operador V que corresponde à variância encontramos a variância do erro de previsão Vq𝑥ₜq𝑥ₜVααββywₜεₜ Vq𝑥ₜq𝑥ₜVααywₜ²Vββ2ywₜcovααββVεₜ Usando o fato de que Vαασ²1Tȳw²T i1yw²Tȳw² Vββσ²T i1yw²Tȳw² covααββσ²ȳwT i1yw²Tȳw² Então temos que a variância do erro de previsão pode ser calculada a partir de Vq𝑥ₜq𝑥ₜσ²1Tȳw²T i1yw²Tȳw²ywₜ²σ²T i1yw²Tȳw²2ywₜσ²ȳwT i1yw²Tȳw²σ² onde σ² é a variância da regressão Colocando σ² em evidência chegamos a uma formulação mais reduzida da variância do erro de previsão Vq𝑥ₜq𝑥ₜσ²11Tywȳw²T i1yw²Tȳw² Essa equação mostra para cada informação de ywₜₙ prevista a variância dessa previsão Sendo assim para qualquer valor de ywₜₙ que utilizarmos o correspondente valor de q𝑥ₜₙ irá se encontrar exatamente na reta de regressão que estimamos Seria como se estivéssemos prolongando a nossa reta de regressão para poder fazer uma previsão dos valores futuros⁴ Mas essa é uma estimativa por ponto e uma vez que estamos diante de incerteza o que acaba por incorporar a presença de probabilidade de ocorrência de um evento e devemos ter cuidado ao trabalhar com essa informação Sendo assim recorremos à estimativa de um intervalo para a nossa previsão E como vimos anteriormente para construir esse intervalo precisamos do cálculo da variância ³O leitor deve prestar bastante atenção à diferença que existe entre a equação conhecida yαβx e a estimada ŷαβxε ⁴Considere que a escolha de um modelo econométrico para fazer previsão resulta em um casamento com a relação entre as variáveis independentes e a dependente Com a vantagem de ser menos burocrático trocálo Forecast Forecast of Equation EQ1 Series QXSA Series names Forecast name qxsaf SE optional qxsef GARCHoptional Method Static forecast no dynamics in equation Structural ignore ARMA x Coef uncertainty in SE calc Forecast sample 1997m01 2015m09 Output x Forecast graph x Forecast evaluation x Insert actuals for outofsample observations OK Cancel Figura 645 Fazendo a Previsão A previsão da variável dependente da nossa equação no EViews pode ser feita a partir de três diferentes formas Na primeira com os resultados da equação aberto clique em Forecast que irá aparecer a janela conforme figura 645 O que temos que fazer é especificar o nome da série prevista na parte Forecast name e caso queira o desviopadrão da previsão especificado como SE Esse irá construir um intervalo de previsão para os dados O mais interessante aqui é construir o intervalo com 2 desvios padrão em relação à média Nesse caso a informação de SE deve ser multiplicada por 2 e depois acrescida e subtraída da série prevista para se ter o intervalo No box de programação a seguir construímos esse intervalo mínimo e máximo Os resultados podem ser mostrados tanto em um gráfico quanto em uma tabela com estatísticas de informação que são úteis para comparar diferentes modelos A segunda forma de fazer essa previsão é clicar em ProcForecast que irá abrir a mesma janela de previsão Na primeira linha é mostrado que a previsão é feita para a equação de nome eq1 e a série que está sendo prevista é qxsa Uma vez que temos uma equação de regressão simples apenas algumas opções em Forecast são abertas No caso do Method como não temos variável dependente defasada fazemos uma previsão que não é dinâmica Podemos mudar o intervalo da previsão no campo denominado de Forecast Sample Além disso podemos mudar na parte de Output o que queremos que seja mostrado os gráficos e os resultados de avaliação dessa previsão Por economia de espaço foi pedido apenas os resultados da previsão e não mostramos o gráfico na figura 645 Vamos discutir as estatísticas mostradas nesse cálculo e que se referem aos erros de previsão Em todas as três primeiras estatísticas quando for comparar diferentes modelos podemos escolher aquele que tem o menor valor para essas estatísticas A primeira delas é o RMSE e que é dado a partir de RMSE tT1Thqxt qxt2h Ou seja calculamos o erro de previsão para cada ponto do intervalo t elevamos ao quadrado somamos todos eles dividimos pelo número de dados utilizados h e por fim extraímos a raiz A segunda estatística é o erro médio absoluto também referido como MAE Esse é dado a partir de MAE tT1Thqxt qxth Nesse caso para cada erro de previsão é aplicado o operador módulo que transforma valores negativos em positivos e a seguir cada um desses erros absolutos são divididos pelo total de dados Por fim somamse todos esses erros A terceira estatística é o erro percentual médio absoluto também referido como MAPE e que é dado por MAPE 100 tT1Th qxt qxt qxt h Nesse caso cada erro de previsão é dividido pelo valor observado extraído o valor absoluto e dividido pelo número de dados Por fim esses resultados são somados e multiplicados por 100 Programação 641 A terceira forma de fazer previsão é via programa A primeira linha determina a equação de regressão de nome eq1 A seguir é especificado o período para a previsão Por fim é feita a previsão para a equação e o resultado colocado na série qxsaf Também é pedido que seja fornecido o SE e damos o nome ao mesmo de qxsase Por fim construímos outras duas séries de dados uma para especificar o intervalo de previsão mínimo com 2 desviospadrão e outra série para o intervalo máximo também com 2 desviospadrão equation eq1ls qxsa ywsa c smpl 2000M1 2015M7 eq1fit qxsaf qxsase series minimoqxsaf2qxsase series maximoqxsaf2qxsase Por fim há um bloco de resultados que se refere ao coeficiente de desigualdade de Theil onde os resultados oscilam entre 0 e 1 sendo que um modelo com resultado 0 é considerado como um que faz a perfeita previsão dos dados A primeira estatística é uma relação do RMSE total com suas partes a prevista junto com a observada Note que no numerador temos o resultado para a estatística RMSE que calcula o erro para cada ponto de previsão Por outro lado no denominador essa estatística é quebrada em duas partes Na primeira cada valor previsto da variável dependente é elevado ao quadrado e dividido pelo número total de dados Ao final esses valores são somados e extraídos a raiz Na segunda parte do denominador estão os valores observados onde os mesmos são elevados ao quadrado divididos pelo total de dados e por fim somados e extraída a raiz Theil tT1Thqxt qxt2 h tT1Thqxt 2 h tT1Thqxt2 h As três estatísticas seguintes de previsão são proporções A primeira delas denominada de Bias Proportion relaciona duas medidas No numerador temos a diferença entre o valor previsto médio valor previsto dividido pelo total de dados e a média do valor observado A seguir esse valor é elevado ao quadrado Note que tT1Th qxt h é a média do valor previsto No denominador temos a estatística de RMSE sem a extração da raiz Essa estatística mostra o quanto a média da previsão se distancia da média da série atual Ela irá oscilar entre 0 e 1 Se for 0 significa que a média dos valores previstos é igual à média dos valores observados Por outro lado se for 1 significa que a média dos valores previstos são bem diferentes dos valores observados Portanto quanto mais próximo de 0 for o valor de bias melhor é o modelo estimado bias tT1Thqxt h qxt2 tT1Thqxt qxt2 h A segunda estatística é a Variance Proportion justamente porque relaciona a variância Nesse caso no numerador temos a diferença entre a variância da previsão com a variância do valor observado A seguir essa diferença é elevada ao quadrado Essa estatística mostra o quanto a variância do erro de previsão se distancia da variância do erro do valor observado Quando esse valor for próximo de 0 menor é a diferença das variâncias entre o valor previsto e observado ou seja o modelo é melhor do que aquele que apresenta uma estatística de variance mais próxima de 1 variance σy σy2 tT1Thqxt qxt2 h A terceira estatística é a Covariance Proportion que considera a estimativa da covariância entre os valores previstos e observados No numerador temos que r é a correlação entre o valor previsto e observado Essa estatística mede os erros de previsão restante Quanto melhor for o modelo menor deve ser a estatística bias e variance o que por sua vez faz com que a maioria do viés do modelo esteja concentrado na estatística de covariância Essa estatística também vai de 0 a 1 covariance 21 r σy σy tT1Thqxt qxt2 h Vamos agora juntar os conhecimentos adquiridos com a regressão simples e a estimativa por alisamento exponencial para produzir uma previsão da variável qx alguns meses à frente No arquivo regressão simpleswf1 as séries já estão ajustadas sazonalmente e nomeadas com o sufixo sa A ideia é fazer uma regressão simples com todos os dados disponíveis Como não sabemos a trajetória futura das variáveis independentes usamos o método do alisamento exponencial para prever vários passos a frente A seguir fazemos uma previsão da variável dependente considerando essas trajetórias Programação 642 Podemos usar a técnica de alisamento exponencial para definir uma trajetória para as variáveis independentes e de posse desses valores usar o recurso de previsão do EViews para prever o comportamento da variável dependente smpl first last for a pxsa ywsa asmoothmeee asm next smpl first 2013M7 series pxsapxsa series ywsaywsa smpl 2013M7 2015M12 pxsapxsasm pxwsaywsasm smpl first last equation eq1ls qxsa ywsa pxsa c smpl 2013m7 2015m12 164 Capítulo 6 Regressão Simples eq1fit qxsaf smpl first last 65 ANEXO ESTATÍSTICO 651 MÍNIMOS QUADRADOS ORDINÁRIOS Vimos anteriormente que em um modelo de regressão simples partindo dos dados de y e x queremos encontrar a equação que melhor irá descrever o comportamento dos mesmos Nesse caso considerando a relação lineary α βxε procuramos os valores de ˆα e ˆβ Um dos métodos que podem ser empregados para estimar esses valores é o MQO Mínimos Quadrados Ordinários que consiste na minimização da soma ao quadrado dos resíduos Min αβ n i1 εi2 n i1 yi α βxi2 Inicialmente vamos resolver esse problema para α n i1 ε2 i α n i1 2yi α βxi 0 yi nα β xi 0 nα yi β xi α yi n β xi n ˆα yβ x Para facilitar o cálculo de ˆβ podemos substituir o valor de ˆα encontrado na equação dos resíduos εi yi ˆα ˆβxi εi yi yβ x ˆβxi εi yi y ˆβxi x O termo yi y representa o desvio de cada yi em relação à média amostral y Dessa forma teremos i desvios que podem ser representados por y i O mesmo se aplica para os desvios de xi no qual temos x i Assim elevando esse termo ao quadrado e somando para todos os valores i n i1 εi2 n i1 y i ˆβx i 2 Minimizando esse termo em relação a β encontraremos ε2 β 2y i ˆβx i x i 0 y i x i ˆβ x i 2 0 65 ANEXO ESTATÍSTICO 165 ˆβ x i 2 y i x i ˆβ y i x i x i 2 ˆβ covyx varx Exercício 61 Utilizando o arquivo regressão simpleswf1 repita os testes e confirme os resul tados apresentados nesse capítulo Exercício 62 Imagine duas regressões distintas eq1 e eq2 que possuem a mesma variável dependente y Onde eq1 é uma regressão simples eq2 possui três variáveis independentes estatisticamente diferentes de zero e a soma dos resíduos ao quadrado de eq2 é maior que a de eq1 Podemos dizer que o R2 de eq2 é maior que o R2 de eq1 pois eq2 explica melhor os movimentos de y Por quê Exercício 63 Em posse do arquivo regressão simpleswf1 adote qxsa como variável depen dente e rode cinco regressões simples utilizando as variáveis pxsa pmsa qmsa ysa e ywsa como explicativa Então escolha o melhor modelo pelo R2 Exercício 64 Em posse do arquivo regressão simpleswf1 adote qxsa como variável depen dente e rode cinco regressões simples utilizando as variáveis pxsa pmsa qmsa ysa e ywsa como explicativa Então escolha o melhor modelo pelo critério de Schwartz Exercício 65 Em posse do arquivo regressão simpleswf1 adote qmsa como variável depen dente e rode cinco regressões simples utilizando as variáveis pxsa pmsa qxsa ysa e ywsa como explicativa Então escolha o melhor modelo pelo critério de HannanQuinn Exercício 66 Considerando a equação qmt α1 β1yt εt onde qmt representa as importa ções de produtos de borracha e material plástico e yt o PIB do Brasil Utilize o método dos mínimos quadrados para encontrar a elasticidade da renda apresente seu intervalo de confiança de 95 e explique se o resultado está de acordo com o esperado Exercício 67 A partir da equação da quantidade importada como função da renda teste se a inclusão de pxsa pmsa qmsa ysa e ywsa são significativas para o modelo Exercício 68 Analise os resíduos na regressão da equação qmt α1 β1yt εt e responda A Os resíduos apresentam distribuição normal B Os resíduos são independentes C Existe autocorrelação nos resíduos D Os resíduos apresentam comportamento homocedástico ou heteroscedástico Exercício 69 Preencha a tabela a seguir com os resultados dos testes de heteroscedasticidade apresentados nesse capítulo Então conclua sobre o padrão de comportamento dos resíduos da 166 Capítulo 6 Regressão Simples regressão na equação qmt α1 β1yt εt Heteroscedasticidade Teste Estatística F Prob F ObsR2 Prob Qui Quadrado BreuschPaganGodfrey Harvey Glejser ARCH 1 lag Exercício 610 Utilize o teste QuandtAndrews para verificar a possível existência de quebra estrutural na regressão qmt α1 β1yt εt Exercício 611 Com o teste de Chow comprove o resultado sobre a existência ou não de quebra estrutural encontrado no exercício anterior Exercício 612 Utilize a estatística F e a razão de verossimilhança do teste RESET de Ramsey para concluir se o modelo está mal especificado na regressão qmt α1 β1yt εt Exercício 613 Teste a existência de outliers na regressão qmt α1 β1yt εt utilizando os testes RStudent DFFITS e COVRATIO Exercício 614 Baseado no coeficiente de desigualdade de Theil escolha qual dos modelos a seguir apresenta o menor erro de previsão A qmt α1 β1ywt εt B qmt α1 β1yt εt C qmt α1 β1yt β2pmt εt D qmt β1yt εt 66 Bibliografia Hodrick R J e Prescott E C 1997 Postwar US business cycles an empirical investiga tion Journal of Money credit and Banking 116 Morais IAC Bertoldi A Anjos ATM 2010 Um modelo nãolinear para as exporta ções de borracha Revista Sober Ramsey J B 1969 Tests for specification errors in classical linear leastsquares regression analysis Journal of the Royal Statistical Society Series B Methodological 350371 7 Regressão Múltipla A passagem da análise de regressão simples para múltipla nada mais é do que acrescentar mais variáveis independentes x resultando em um modelo da forma yt α β1x1 β2x2 βnxn εt Aqui assumimos as mesmas hipóteses relativas aos resíduos que foram feitas anteriormente ou seja que possuem uma média zero E εt 0 variância constante E ε2t σ2 são independentes entre eles E εt εti 0 e também entre as diversas variáveis independentes E εtx t 0 e são distribuídos normalmente εt N0σ2 Uma hipótese adicional importante a ser feita aqui é que as variáveis independentes não possuem uma relação linear determinística Ou seja que as mesmas não possam ser combinadas de maneira a se produzir uma outra série Para exemplificar essa questão suponha um modelo com duas variáveis do tipo yt α β1x1 β2x2 εt se existir colinearidade entre as duas variáveis independentes x1 x2 como por exemplo ax1 bx2 c então podemos dizer que x2 cb ab x1 e o modelo final seria diferente do original yt α β1x1 β2 cb ab x1 εt yt α β1x1 cβ2b ab β2x1 εt yt α cβ2b β1 ab β2 x1 εt ou seja ao invés de estimar α podemos então estimar α cβ2b Além disso ao invés de estimar β seria encontrado β1 ab β2 Portanto se as variáveis independentes forem correlacionadas o modelo irá produzir parâmetros bem diferentes dos originais 168 Capítulo 7 Regressão Múltipla 71 O modelo com duas variáveis independentes Vamos exemplificar o uso da regressão múltipla acrescentando apenas uma variável independente Considere a estimativa de um modelo linear yt ˆa ˆβ1x1 ˆβ2x2 ˆεt onde os resíduos são obtidos a partir de ˆεt yt ˆα ˆβ1x1 ˆβ2x2 e queremos encontrar os parâmetros ˆα ˆβ1 e ˆβ2 Para tanto podemos fazer uso do método dos mínimos quadrados ordinários da mesma forma que foi aplicado para o modelo de regressão simples Ou seja vamos minimizar a soma ao quadrado dos resíduos Q ε2 t minQ minyt ˆα ˆβ1x1 ˆβ2x22 que irá produzir os valores de ˆα ˆβ1 e ˆβ2 tal como a seguir1 ˆα y ˆβ1 x1 ˆβ2 x2 ˆβ1 S22S1y S12S2y S11S22 S2 12 ˆβ2 S11S2y S12S1y S11S22 S2 12 onde definise S11 x2 1 n x12 S22 x2 2 n x22 S1y x1y n x1 y S2y x2y n x22 e Syy y2 ny2 Da mesma forma que para a regressão simples além dos coeficientes estimados na regressão múltipla também é possível encontrar as seguintes estatísticas Soma ao quadrado dos resíduos RSS Syy ˆβ1S1y ˆβ2S2y Soma ao quadrado da regressão ESS ˆβ1S1y ˆβ2S2y Soma ao quadrado total TSS ESSRSS Syy Coeficiente de determinação ESS TSS R2 12 ˆβ1S1y ˆβ2S2y Syy Destacase que o valor de RSS é a parte da regressão que não é explicada pelo modelo com duas variáveis ou seja está relacionada ao resíduo2 Já ESS define a parte explicada Dessa forma a soma da parte explicada com a não explicada nos fornece o total ou seja TSS Por fim relacionando a parte explicada com o total temos a parcela da variável dependente que é explicada pelo modelo ou seja o R2 12 Assim como no modelo de regressão simples aqui podemos encontrar as estatísticas associadas a cada parâmetro Porém devido o fato de se ter mais de uma variável independente é necessário considerar a relação que existe entre elas Para tanto usamos o coeficiente de correlação ao 1Os passos para se encontrar essas relações podem ser vistos em qualquer livro texto de econometria 2Como pode ser visto a diferença entre esse resultado e o encontrado para o modelo de regressão simples com uma única variável dependente devese a ˆβ2S2y 71 O modelo com duas variáveis independentes 169 quadrado3 que no caso de duas variáveis é dado por r2 12 ρ2 O conjunto de equações que irá determinar as estatísticas dos coeficientes do modelo de regressão múltipla são dadas por ˆσ2 ˆβ1 ˆσ2 S111r2 12 ˆσ2 ˆβ2 ˆσ2 S221r2 12 cov ˆβ1 ˆβ2 ˆσ2r2 12 S121r2 12 e ˆσ2 ˆα ˆσ2 n x12σ2 ˆβ1 2x1 x2cov ˆβ1 ˆβ2 x2 2σ2 ˆβ2 tal que o coeficiente de correlação entre x1 e x2 é dado por r12 Um resultado interessante aqui é que quanto maior for a correlação entre as duas variáveisx1 e x2 mantendo tudo o mais constante maior será o r2 12 Como r2 12 também está presente no cálculo da variância de ˆβ1 e ˆβ2 então quanto maior for a correlação entre as duas variáveis maior será a variância desses parâmetros Da mesma forma como a variância de ˆβ1 e ˆβ2 fazem parte do cálculo da variância de ˆα podemos inferir que uma maior correlação entre as variáveis independentes irá resultar em maior variância do intercepto Portanto uma elevada correlação entre as variáveis independentes torna insignificante a estimativa de seus coeficientes Por fim enquanto no modelo de regressão simples os graus de liberdade utilizados para se fazer os testes estatísticos eram dados por n2 no modelo de regressão múltipla com 2 variáveis independentes temse n3 No limite para k variáveis independentes teremos que os graus de liberdade são dados por nk 1 Vejamos como seria o exemplo da estimativa de um modelo de regressão múltipla acrescentando apenas uma variável ao modelo de regressão simples feito anteriormente Nesse caso escolhemos adicionar os preços praticados pelo exportador dado por pxt mas ajustado sazonalmente e a nossa equação ficaria qxt α1 β1ywt β2pxt εt 71 Tal como antes temos duas formas distintas de estimar essa equação como mostrado na Figura 71 A primeira seria selecionando a variável dependente e a seguir todas as outras independentes Depois clique em open as equation abrindo a janela da Figura 71a A segunda forma seria selecionar quick estimate equation e escrever a equação conforme a Figura 71b As duas formas de estimativa irão conduzir ao mesmo resultado e o EViews R irá mostrar um conjunto de informações como mostrado na Figura 72 Como sugestão prefira estimar conforme a Figura 71a pois tal procedimento é condição necessária para realizar alguns testes no futuro Note que aparece um coeficiente a mais na nossa equação Nesse caso o c3 que é o parâmetro relacionado ao preço de exportação pxt Todas as demais estatísticas informadas são iguais ao modelo de regressão simples mas com algumas diferenças na interpretação Para mostrar esse resultado em formato de equação usamos qxt 216254 100968 15312 01854 ywt 04280 00851 pxt εt onde entre parênteses ficam descritos os valores dos respectivos desviopadrão Tal qual nos resultados apresentados para o modelo de regressão simples na coluna especificada como StdError estão os desviospadrão de cada parâmetro Depois a estatística t tstatistic e o pvalor Prob A primeira é utilizada para testar se o seu respectivo parâmetro é estatisticamente diferente de zero a partir da fórmula t x µ σ 3Repare a diferença que existe entre R2 12 e r2 12 O primeiro representa a relação entre as duas variáveis independentes e a dependente Por outro lado r2 12 está relacionado apenas à relação que existe entre as variáveis independentes 170 Capítulo 7 Regressão Múltipla a b Figura 71 Como estimar uma regressão múltipla Figura 72 Resultado da Regressão Múltipla Por exemplo podemos testar se o parâmetro da elasticidadepreço da demanda é estatisticamente igual a zero β2 0 a partir de t β2 0 σβ1 04280 0085071 50314 Por fim o resultado do Prob irá indicar se aceitamos ou rejeitamos a hipótese nula de que o coeficiente em questão é estatisticamente igual a zero Destacase que para esse teste estamos assumindo uma distribuição tstudent No nosso exemplo tanto para o coeficiente da constante quanto para o da renda rejeitamos a hipótese nula de que são estatisticamente iguais a zero Programação 711 Tal qual na regressão simples a outra forma de estimar um modelo de regressão múltipla é via programação apenas acrescentando o nome das novas variáveis a serem utilizadas Vejamos o exemplo de se ter uma regressão com duas variáveis independentes adicionando apenas os preços internacionais pxt 71 O modelo com duas variáveis independentes 171 Smpl 2000m01 2015m07 equation eq1ls qxsa ywsa pxsa c A estatística t e seu respectivo teste podem ser aplicados a partir de uma programação tal qual mostrado na regressão simples Nesse caso queremos testar se β2 0 Primeiro especificamos a estatística t e armazenamos a mesma em um escalar de nome estatisticat A seguir criamos uma tabela com três linhas e uma coluna de nome testet e armazenamos na primeira linha o valor de estatisticat na segunda linha o pvalor e na terceira linha uma variável string que irá nos dizer se aceitamos ou rejeitamos a hipótese nula Para fazer isso usamos o comando if e também como nível de significância 5 scalar estatisticateq1tstats2 table31 testet testet11estatisticat teste21tdistestatisticat157 if testet21005 then estet31aceitamos h0 else estet31rejeitamos h0 endif Além desses resultados básicos tal qual no modelo de regressão simples há diversos outros que são mostrados logo abaixo e que servem para avaliar o modelo em questão O Rsquared conhecido como R2 tem um valor de 0437990 mas deve ser interpretado de maneira diferente ao valor encontrado para o R2 do modelo de regressão simples Aqui dizemos que cerca de 4380 das variações em qx são explicadas por variações em yw e px A fórmula é tal como antes e dada por R2 1 T t1 ˆε2 t T t1yt y2 onde T t1 ˆε2 t é denominado de soma do quadrado dos resíduos sum squared resid e no nosso exemplo tem valor de 3203126 Tal qual na regressão simples o termo T t1yt y2 representa o quanto a variável dependente desvia em relação à sua média ou então mantendo a notação anterior é o mesmo que Syy Σy2 ny2 Antes de prosseguir no cálculo cabe destacar que para realizar a regressão o EViews R precisou ajustar a amostra como visto na Figura 72 em Sample adjusted 2000M01 2015M07 Essa alteração é feita pois em algumas das séries utilizadas faltam as observações anteriores a janeiro de 2000 como a série ywsa Assim para encontrar o valor de Syy utilizase a média da variável dependente nesse período representada na Figura 72 por Mean dependent var No presente caso a média da variável dependente é 8516810 E se fizermos o quadrado da diferença de cada observação da variável dependente em relação a sua média e somarmos encontraremos 5699414 Assim R2 1 3203126 5699414 0437990284 O valor de R2 ajustado Adjusted Rsquared corrigide pelo número de coeficientes k que estão sendo utilizadas no modelo Sua fórmula geral é dada por R2 11R2T 1 T k e aplicando para os dados do modelo Rˆ2 1 1 0 437990 187 1 187 3 0 431881483 No caso da regressão simples o R2 tem uma interpretação direta Porém na regressão múltipla podemos estar interessados não em identificar quanto o modelo é explicado pelas variáveis independentes mas sim quanto que cada variável explica o modelo Nesse caso usamos a estatística de correlação parcial dada por Ryx2 tx2 tx2 T k onde tx é a estatística t do coeficiente x T é o número de observações e k o número de parâmetros do modelo completo Suponha por exemplo que na nossa regressão acima se queira determinar o efeito da elasticidaderenda da demanda ywsa mantendo todas as demais variáveis independentes constantes eliminando o impacto que β2 tem sobre β1 Assim usamos R2qxyw tyw2 tyw2 T k R2qxyw 825922 82592 2 187 3 0 270460 Para o caso de se querer saber o impacto apenas da elasticidadepreço usamos R2qx px 5 03142 5 0314 2 187 3 0 120943 Portanto note que a elasticidade tem uma capacidade explicativa mais do que o dobro da variável preço A soma de ambas dá 039 de um total de 043 do valor de R2 O desviopadrão da regressão SE of regression na Figura 72 é dado por σ σ ˆ2 RSS T k onde além do número de observações T e do número de parâmetros k temos RSS como a soma ao quadrado dos resíduos Na regressão representada pela Equação 71 que temos como exemplo o desviopadrão da regressão será dado por σ 32031 26 187 3 13 19405 A estatística do log da verossimilhança log likelihood e os critérios de comparação de Akaike Schwarz e HannanQuinn são feitos da mesma forma que para a regressão simples Por isso não entramos no detalhe desses resultados E estatística F também é calculada da mesma forma mas sua interpretação é feita de maneira diferente Nesse caso como a nossa regressão tem três parâmetros o testeF está testando na hipótese nula se α1 β1 β2 0 Pelos resultados apresentados no teste F onde seu pvalor0 não podemos aceitar a hipótese nula Nesse caso os parâmetros em conjunto são estatisticamente diferentes de zero 71 O modelo com duas variáveis independentes 173 Programação 712 Como forma de ilustrar cada uma das funções que são utilizadas para gerar as estatísticas apresentadas acima essa rotina monta uma tabela com quatro colunas e 8 linhas e a seguir especifica cada estatística e coloca a mesma de tal forma que seja possível comparar com os resultados apresentados pelo EViews R Note que na última linha oitava linha foi colocada a correlação parcial primeiro da elasticidaderenda e depois da elasticidadepreço Smpl 1997m1 2015m09 equation eq1ls qxsa c ywsa pxsa table84 result result11R2 result12eq2r2 result21R2 ajustado result22eq2rbar2 result31erro padrão da regressão result32eq2se result41Soma dos resíduos ao quadrado result42eq2ssr result51Log da verossimilhança result52eq2logl result61estatística F result62eq2f result71pvalor da estatística f result72eq2fprob result13média da variável dependente result14eq2meandep result23desviopadrão da variável dependente result24eq2sddep result33Akaike result34eq2aic result43Schwarz result44eq2schwarz result53HannanQuinn result54eq2hq result63Durbinwatson result64eq2dw result81parcela explicada por yw scalar ryweq2tstats22eq2tstats22eq2regobseq2ncoef result82 ryw result83parcela explicada por px scalar rpxeq2tstats32eq2tstats32eq2regobseq2ncoef result84 rpx Com os resultados da equação abertos podemos ver o gráfico clicando em Resids ou View Actual Fitted Residual Actual Fitted Residual Graph Observando a Figura 73 note que agora nosso modelo erra menos do que no modelo de regressão simples demonstrado na Figura 65 e que também pode ser comprovado pelo resultado do R2 A estimativa dos valores para cada período é feita tal como no modelo de regressão simples Só que agora temos uma variável a mais para especificar como demonstrado pela Equação 71 do modelo de regressão múltipla Nesse caso vejamos como é a estimativa do valor de qx para janeiro 174 Capítulo 7 Regressão Múltipla Figura 73 Resultado do Modelo de Regressão Múltipla de 2003 qxt 216254 100968 15312 01854 ywt 04280 00851 pxt εt Naquela data temos os seguintes valores para as variáveis independentes ywjan2003 1917077 e pxjan2003 1904287 Substituindo esses valores na equação acima encontramos qx jan2003 216254 100968 15312 01854 191707704280 00851 1904287 195050 A seguir todos os procedimentos de diagnósticos dos coeficientes ou então dos resíduos pode ser feito tal como no modelo de regressão simples Por isso não iremos apresentálos aqui Programação 713 O loop a seguir pode ser usado para rodar várias regressões e colocar os resultados em uma tabela permitindo que se faça a escolha do melhor modelo através do R2 e dos critérios de comparação smpl 1997m01 2015m09 table55 modelos modelos12eq1 modelos13eq2 modelos14eq3 modelos15eq4 modelos21R2 modelos31akaike modelos41Schwarz modelos51HannanQuinn equation eq1ls qxsa c ywsa equation eq2ls qxsa c ywsa pxsa equation eq3ls qxsa c ywsa pxsa pxwsa equation eq4ls qxsa c ywsa pxsa pxwsa esa 72 Previsão Forecast 175 for i1 to 4 modelos2i1eqir2 modelos3i1eqiaic modelos4i1eqischwarz modelos5i1eqihq next Os testes de diagnóstico de estabilidade tal como o Teste de Chow Teste de QuandtAndrews Teste de Previsão de Chow Teste de Ramsey estimativas recursivas e estatísticas de influência podem ser aplicados da mesma forma apresentada no capítulo de Regressão Simples A sua interpretação também é feita da mesma forma 72 Previsão Forecast A previsão em modelos de regressão múltipla pode ser feita tal como nos modelos de regressão simples Com a equação aberta selecione Forecast escolha um nome para a série de resultados da previsão aqui usamos qxsaf e um nome para a série do desviopadrão usamos qxsef Por fim selecione o intervalo de previsão e clique em ok No resultado tal como mostrado na Figura 74 podemos ver a série de previsão com seu respectivo intervalo de confiança com 2 desvios Para comparação dos resultados do modelo de regressão simples com o modelo de múltiplas variáveis observase as estatísticas de erro de previsão RMSE MAE e MAPE Enquanto os resultados de RMSE MAE e MAPE da regressão simples foram respectivamente 189004 161485 e 238140 a Figura 74 apresenta os resultados dessas estatísticas de previsão para o modelo de regressão múltipla com as variáveis independentes pxsa e ywsa Assim as estatísticas de previsão mostram que em comparação com o modelo de regressão simples o modelo com duas variáveis adere melhor aos dados apesar dos resultados ainda estarem longe do ideal Figura 74 Previsão do modelo de regressão múltipla Programação 721 Também podemos fazer uma previsão de um modelo de regressão múltipla via programa A primeira linha determina a equação de regressão onde colocamos primeiro a variável dependente e a seguir as independentes A seguir é especificado o período para a previsão No exemplo abaixo colocamos para todo o período amostral Por fim é feita a previsão para a equação e o resultado colocado na série qxsaf juntamente com o desvio padrão com nome qxsef Esse último irá permitir que seja construído o intervalo de confiança da previsão referente aos comonados series min e series max 176 Capítulo 7 Regressão Múltipla equation eq1ls qxsa c ywsa pxsa smpl 1997m01 2015m09 eq1forecast qxsaf qxsef series minqxsaf2qxsef series maxqxsaf2qxsef 73 Método STEPLS A programação não é a única maneira de se fazer várias regressões testes e a aplicação de diversas outras ferramentas estatísticas no EViews R Também podemos aplicar o método STEPLS A partir deste várias equações são estimadas considerando as variáveis em questão e fornecidos os resultados para que seja selecionada a melhor Para no nosso exemplo temos cinco variáveis que podem ser combinadas de várias formas Além do quantum de exportações do setor de produtos de borracha e materiais plásticos qxsa do PIB mundial ywsa e do índice de preços das exportações desse setor pxsa temos o PIB brasileiro ysa o índice de preço das importações pmsa e o quantum das exportações do setor de produtos de borraça e material plástico qmsa As mesmas estão no arquivo 07rmwf1 Os mesmos já estão ajustados sazonalmente Nosso objetivo é encontrar a melhor equação linear com no máximo cinco variáveis independentes Como já foi demonstrado para estimar uma equação podemos selecionar as varáveis e abrir como equação ou via quick estimate equation e escrever a equação que queremos estimar A seguir na opção method selecione STEPLS Stepwise Least Squares Na parte onde é possível especificar a variável dependente coloque qxsa e a constante depois na parte da lista dos repressores especifique todas as demais independentes conforme a Figura 75a Na aba options podemos escolher diversas formas de estimação conforme Figura 75b Vamos começar selecionando stepwise forwards A diferença entre os opções de forwards e backwards está na adição ou remoção de variáveis independentes com o menor pvalor ou maior estatística t na equação conforme critério definido Além disso também é possível selecionar o método unidirectional swapwise e combitional O método unidirecional adiciona forward ou remove backward variáveis até que o menor pvalor das variáveis não incluídas ser maior que o critério de parada definido O método stepwise nada mais é que uma combinação da rotina unidirecional forward e backward No método swapwise é necessário optar por máximo ou mínimo incremente ao R2 Esse método busca maximizar o R2 sendo que o Max RSquared Increment adiciona as variáveis que mais contribuem para o aumento do R2 e o Min RSquared Increment adiciona as variáveis que menos contribuem para o incremento do R2 O método combitional testa todas as combinações de variáveis e seleciona o modelo com maior R2 Esses métodos serão explorados na próxima subseção onde haverá uma explanação mais detalhada para cada um deles Na opção de critério de parada Stoping Criteria definimos se o método irá ser coordenado pelo menor pvalor ou maior resultado da estatística t Essa opção só aparece para o método unidirecional e stepwise No nosso exemplo utilizando o stepwise forward coloque 0001 para o pvalor forwards e deixe o resto tal como sugerido Um ponto importante nesse passo é a opção use number of regressors utilizada em todos métodos Se colocarmos o valor 1 o melhor modelo terá apenas uma variável independente Se selecionarmos o valor 2 o melhor modelo terá duas variáveis independentes Se não selecionarmos essa opção o procedimento irá determinar o número de variáveis independentes a serem consideradas O resultado será a seleção de uma equação com todos os coeficientes O método stepwise inicia no nosso exemplo com uma regressão da forma qxt cεt 73 Método STEPLS 177 a Estimando regressão pelo método STEPLS b Opções do método STEPLS Figura 75 Método STEPLS A seguir é inserida uma variável independente gerando mais quatro regressões simples cada uma com uma constante Por exemplo será feita uma regressão com o seguinte formato abaixo onde a variável independente é yw qxt cβ1ywsaεt As demais regressões simples irão ter uma constante e uma variável independente diferente Dessa forma teremos uma regressão apenas com pxsa como variável independente e assim sucessivamente De acordo com os nossos dados o modelo final sugerido é dado por qxt cβ1ywsaβ2ysaβ3qmsaβ4pxsaεt No resultado Figura 76 da estimativa podemos ver que o método manteve apenas uma variável em todas as regreções Number of always included regressors a constante e que o total de variáveis independentes foi 4 O método de seleção é o Stepwise forwards e o critério de inclusão é o pvalor ao nível de 0001 Note que todos os coeficientes são estatisticamente diferentes de zero e as demais estatísticas podem ser interpretadas de forma igual ao que vimos em modelos de regressão por mínimos quadrados Além disso percebemos que a variável pmsa não foi adicionada à regressão pois o pvalor ficava acima do critério determinado Em comparação com as outras regressões apresentadas destacamos o resultado do R2 de 08659 maior que a regressão simples e a regressão múltipla apenas com as variáveis ywsa e pxsa Programação 731 O método STEPLS pode ser feito via programação O default é o método stepwise para utilizar as outras opções utilizamosmethod uni para o unidirectional text swapwise ou comb combinatorial De qualquer forma vamos utilizar o padrão stepwise O procedimento forward também é default não sendo necessário especificar o mesmo Caso contrário podemos especificar back No critério de seleção o pvalor é default e de outra forma podemos escolher tstat Para definir os critério utilizamos ftol0001 para o critério forward sem termos que utilizar btol 05 para o critério backward pois este é o valor padrão O procedimento acima pode ser feito via eq1steplsmethodstepwise ftol0001 qxsa c ywsa ysa qmsa pxsa 178 Capítulo 7 Regressão Múltipla Figura 76 Resultado do método STEPLS 731 Os métodos de Seleção STEPLS Dentro do procedimento de escolha do melhor modelo de regressão é possível selecionar dentre vários tipos de métodos sendo que os mesmos podem ser divididos entre forward e backward e também tendo como opção de seleção das variáveis o pvalor ou a estatística t A seguir fazemos uma breve explanação sobre esses métodos Unidirecional Esse processo pode ser utilizado tanto para adicionar variáveis ao modelo forward quanto para retirar backward e nesse caso a decisão é feita com base ou no pvalor ou na estatística t sendo necessário escolher qual o critério de decisão para essas duas estatísticas Suponha que seja o pvalor Com essa opção o modelo começa como uma regressão simples rodando várias regressões com diferentes combinações sempre tendo apenas uma variável A variável com menor pvalor fica A seguir são feitas regressões múltiplas adicionando mais uma variável dentre todas as que foram especificadas Aquela que atender o critério estabelecido e tiver o menor pvalor é acrescentada ao modelo O procedimento continua até que não seja mais possível adicionar variável que atenda aos critérios especificados pvalor e número de passos Maximum steps Já no método unidirecional backwards o procedimento se inicia com todas as variáveis e vai retirando aquelas com maior pvalor até que restem apenas aquelas que atendam aos critérios especificados Nesse caso como o método é backward é utilizado o critério Maximum steps backwards Esse procedimento é complementado com a escolha da opção User Number of Regressors que 73 Método STEPLS 179 determina quantas variáveis devem constar no modelo final Se não selecionar essa opção o modelo irá conter o máximo de variáveis que atendem as especificações anteriores Caso contrário se o mesmo for selecionado podemos especificar quantas variáveis queremos que o modelo final tenha Stepwise Da mesma forma que no método unidirecional o método Stepwise pode ser escolhido com a opção de forwards e backwards Independente da escolha da opção o fato é que o método Stepwise é uma combinação do método unidirecional forward com o unidirecional backward O que muda é a ordem de execução da seleção e escolha das variáveis Por exemplo suponha que se tenha escolhido o método Stepwise forward com opção de pvalor Aqui o processo começa sem variável são feitas diversas regressões simples ou seja adicionando apenas uma variável A seguir aquela que apresentar o menor pvalor é mantida no modelo O procedimento se repete testando todas as demais variáveis e escolhendo aquela que também irá ter o menor pvalor Nesse momento teremos um modelo com duas variáveis independentes Antes de testar a terceira variável é feito o procedimento backward no modelo com duas variáveis independentes Se alguma delas não atender ao critério do pvalor ou estatística t é removida No passo seguinte é escolhida a terceira variável a ser adicionada no modelo e que deve atender aos critérios especificados pvalor ou estatística t Escolhida essa terceira variável é feito novamente o procedimento backward com o modelo tendo três variáveis para confirmar as mesmas A seguir para toda e qualquer variável que se queira acrescentar ao modelo é feito o mesmo procedimento primeiro testando forward e a seguir backward Podemos comparar o resultado do métodoStepwise forward com o método backward para ver se encontramos o modelo com o mesmo número de variáveis Pra tanto selecione backward e o critério de seleção que pode tanto ser o pvalor quanto a estatística t Destacase que o método Stepwise backward é exatamente o contrário do Stepwise forward Primeiro todas as variáveis são inseridas no modelo e a que tiver o maior pvalor é excluída A seguir dentro daquelas que ficaram no modelo é feita a investigação forward para confirmar a presença das mesmas O procedimento se repete e as variáveis que foram excluídas são verificadas pelo método forward Se alguma delas tiver um pvalor mais baixo ou uma estatística t maior é inserida novamente no modelo O procedimento se repete até que todos os critérios sejam atendidos Swapwise Esse método utiliza dois importantes critérios de escolha a estimativa do R quadrado para fazer a seleção do melhor modelo dividindo a escolha entre um incremento máximo ou mínimo e o número de variáveis independentes a considerar Vejamos como é o exemplo do método via R quadrado máximo O procedimento se inicia sem variável independente e após feitas várias regressões simples é escolhida aquela que maximiza o R quadrado A seguir são testadas as demais variáveis adicionando uma a uma no modelo A que gerar o maior incremento no R quadrado permanece Para confirmar a presença dessas duas variáveis as mesmas são comparadas com cada uma das que estão fora do modelo Ou seja imagina que temos uma regressão do tipo yt cβ1x1t β2x2t εt Para confirmar a presença dessas variáveis são feitas regressões do tipo yt cβ1x1t β3x3t εt e também yt cβ2x2t β3x3t εt 180 Capítulo 7 Regressão Múltipla e assim sucessivamente para todas as variáveis que não estavam no modelo básico Isso é feito para ver se as diferentes combinações não gera um R quadrado incremental maior Uma vez descoberta a melhor combinação com duas variáveis o procedimento continua para a terceira variável que gera o melhor incremento no R quadrado A seguir partindo de um modelo de três variáveis independentes são feitas várias combinações para descobrir qual gera o melhor incremento no R quadrado De outra forma se escolhermos o método Swapwise com R quadrado mínimo o procedimento é parecido com o que considera o R quadrado máximo A diferença é que na hora de testar as diferentes combinações o procedimento é feito escolhendo aquela que gera o menor incremento no R quadrado Combinatorial Nesse método devemos especificar quantas variáveis independentes queremos testar no modelo e as mesmas são testadas em várias combinações e é selecionada aquela combinação que produz o maior R quadrado Esse método é o que requer o maior número de estimativas e dependendo do número de variáveis a serem especificadas o resultado pode demorar em ser fornecido 74 Bibliografia Hamilton J 1994 Linear Regression Model In Time Series Analysis Prince ton University Press pp 200 232 Wansbeek T e Meijer E 2008 Measurement error and latent variables In Baltagi B H Ed A companion to theoretical econometrics John Wiley Sons pp 162 179 Referências Bibliográficas 1 Lawrence J Christiano and Terry J Fitzgerald The band pass filterInternational Economic Review 442435465 2003
Send your question to AI and receive an answer instantly
Recommended for you
5
Trabalho de Econometria II - Análise de Regressão Linear da Produção de Automóveis
Econometria
PUC
52
Econometria - Modelagem de Processos Não Estacionários e Modelo ARIMA
Econometria
PUC
1
Analise Econometrica Fatores Determinantes Trabalho Feminino MPL Logit Probit - Relatorio Word
Econometria
PUC
2
Plano de Ensino Econometria III - FEA USP 2022
Econometria
PUC
1
Anotacoes-Apêndices-A-B-C-Estudo-Para-Pontos-Extras
Econometria
PUC
1
Analise Econometrica dos Determinantes do Tabagismo Modelos MPL LOGIT e PROBIT
Econometria
PUC
1
Lista de Exercicios Estatistica Calculo de Metricas e Testes
Econometria
PUC
1
Anotacoes-Apêndices-A-B-C-Estudo-Para-Curso
Econometria
PUC
4
Redes Neurais Artificiais - Aplicações em Business Analytics
Econometria
PUC
38
Quiz Econometria Analise de PIB e Modelos Lineares
Econometria
PUC
Preview text
ISBN 9788571731417 Econometria Aplicada no EViews Igor Morais Filipe Stona Gustavo Schuck Fundação de Economia e Estatística SECRETARIA DO PLANEJAMENTO MOBILIDADE E DESENVOLVIMENTO REGIONAL ISBN 9788571731417 FUNDAÇÃO DE ECONOMIA E ESTATÍSTICA Siegfried Emanuel Heuser Econometria Aplicada no EViews Igor Morais Filipe Stona e Gustavo Schuck Porto Alegre outubro de 2016 SECRETARIA DO PLANEJAMENTO MOBILIDADE E DESENVOLVIMENTO REGIONAL FUNDAÇÃO DE ECONOMIA E ESTATÍSTICA Siegfried Emanuel Heuser CONSELHO DE PLANEJAMENTO André F Nunes de Nunes Angelino Gomes Soares Neto André Luis Vieira Campos Leandro Valiati Ricardo Franzói Carlos Augusto Schlabitz CONSELHO CURADOR Mayara Penna Dias Olavo Cesar Dias Monteiro e Irma Carina Brum Macolmes DIRETORIA DIRETOR TÉCNICO MARTINHO ROBERTO LAZZARI DIRETOR ADMINISTRATIVO NÓRA ANGELA GUNDLACH KRAEMER CENTROS ESTUDOS ECONÔMICOS E SOCIAIS Vanclei Zanin PESQUISA DE EMPREGO E DESEMPREGO Rafael Bassegio Caumo INDICADORES ECONÔMICOS E SOCIAIS Juarez Meneghetti INFORMÁTICA Valter Helmuth Goldberg Junior INFORMAÇÃO E COMUNICAÇÃO Susana Kerschner RECURSOS Grazziela Brandini de Castro Bibliotecário responsável João Vítor Ditter Wallauer CRB 102016 2016 Igor Morais Publicado pela Fundação de Economia e Estatística Siegfried Emanuel Heuser É permitido reproduzir compartilhar e derivar trabalhos desta obra desde que citada a fonte sendo proibido o uso para fins comerciais a menos que haja permissão por escrito do detentor dos direitos autorais As opiniões emitidas neste livro são de exclusiva responsabilidade dos autores não exprimindo necessariamente um posicionamento oficial da FEE ou da Secretaria do Planejamento Mobilidade e Desenvolvimento Regional Capa Laura Wottrich Como referenciar este trabalho MORAIS I A C de STONA F SCHUCK G Econometria Aplicada no EViews Porto Alegre FEE 2016 FUNDAÇÃO DE ECONOMIA E ESTATÍSTICA Siegfried Emanuel Heuser FEE Rua Duque de Caxias 1691 Porto Alegre RS CEP 90010283 Fone 51 32169132 Fax 51 32169134 Email bibliotecafeetchebr Site wwwfeersgovbr M827e Morais Igor A Clemente de Econometria Aplicada no EViews Igor Morais Filipe Stona M827e e Gustavo Schuck Porto Alegre FEE 2016 182 p il ISBN 9788571731417 1 Econometria 2 Estatística 3 EViews programa de M827e computador I Stona Filipe II Schuck Gustavo III Fundação de M827e Economia e Estatística Siegfried Emanuel Heuser IV Título CDU 33043 Sumário I Parte Um 1 EViews R 9 11 Programando no Eviews 10 111 Exemplo de Programação 10 12 Como abrir dados no EViews R 12 13 Do Excel para o EViews R 13 14 Criando um Workfile 15 15 Abrindo os dados do FRED 16 2 Gráficos no EViews R 19 21 Dados Categóricos 28 22 Exemplos de programasprg 29 3 Funções de Distribuição 31 31 A Curva Normal 33 32 A curva tstudent 40 33 A Curva QuiQuadrado 42 34 Curva F 49 35 Distribuição de Poisson 51 36 Exercícios 52 37 Sites úteis 54 4 Estatísticas testes de hipótese e ANOVA 55 41 Histograma e Estatísticas 56 42 Estatísticas por classificação Statistics by Classification 59 43 Testes de Hipótese 60 44 Teste de Igualdade por Classificação 61 45 Teste de Distribuição Empírica KolmogorovSmirnov 62 46 Teste de Igualdade Test of Equality 64 47 Gráficos Analíticos Fazendo a distribuição dos dados 64 48 Teste de Razão de Variância 65 49 Exercícios 72 5 Séries de tempo 75 51 Ajuste Sazonal 75 511 Método das Médias Móveis Moving Average Methods 77 512 TRAMOSEATS 80 513 Método Census X12 81 514 Método Census X13 86 515 Alisamento Exponencial 88 52 ETSERRORtrendseasonal 93 53 Ciclo 98 531 Filtro HodrickPrescott 98 532 Filtros de Frequência 100 533 O Filtro CorbaeOuliaris 104 54 Autocorrelação Correlograma 105 55 Análise Espectral 108 56 Exercícios 111 57 Bibliografia 112 6 Regressão Simples 115 61 Diagnóstico Dos Coeficientes 124 611 Scaled Coefficients 125 612 Intervalo de Confiança 125 613 Teste de Wald 127 614 Confidence Ellipse 129 615 Variance Inflation Factors 130 616 Decomposição da Variância do Coeficiente 131 617 Variáveis Omitidas 131 618 Variáveis Redundantes 134 619 Teste Factor Breakpoint 135 62 Diagnóstico Dos Resíduos 137 621 Teste de Normalidade 137 622 O teste de Independência BDS 138 623 Correlograma Qstat 139 624 Correlograma dos Resíduos ao Quadrado 140 625 Teste de Autocorrelação LM 140 626 Testes de Heteroscedasticidade 142 63 Diagnóstico De Estabilidade 147 631 Teste de Chow 147 632 Teste de QuandtAndrews 150 633 Teste de Previsão de Chow 152 634 Teste de Ramsey 153 635 Estimativas Recursivas 153 636 Leverage Plots 157 637 Estatísticas de Influência 158 64 Previsão Forecast 158 65 ANEXO ESTATÍSTICO 164 651 MÍNIMOS QUADRADOS ORDINÁRIOS 164 66 Bibliografia 166 7 Regressão Múltipla 167 71 O modelo com duas variáveis independentes 168 72 Previsão Forecast 175 73 Método STEPLS 176 731 Os métodos de Seleção STEPLS 178 74 Bibliografia 180 Referências Bibliográficas 180 I 1 EViews R 9 11 Programando no Eviews 12 Como abrir dados no EViews R 13 Do Excel para o EViews R 14 Criando um Workfile 15 Abrindo os dados do FRED 2 Gráficos no EViews R 19 21 Dados Categóricos 22 Exemplos de programasprg 3 Funções de Distribuição 31 31 A Curva Normal 32 A curva tstudent 33 A Curva QuiQuadrado 34 Curva F 35 Distribuição de Poisson 36 Exercícios 37 Sites úteis 4 Estatísticas testes de hipótese e ANOVA 55 41 Histograma e Estatísticas 42 Estatísticas por classificação Statistics by Classifica tion 43 Testes de Hipótese 44 Teste de Igualdade por Classificação 45 Teste de Distribuição Empírica Kolmogo rovSmirnov 46 Teste de Igualdade Test of Equality 47 Gráficos Analíticos Fazendo a distribuição dos dados 48 Teste de Razão de Variância 49 Exercícios 5 Séries de tempo 75 51 Ajuste Sazonal 52 ETSERRORtrendseasonal 53 Ciclo 54 Autocorrelação Correlograma 55 Análise Espectral 56 Exercícios 57 Bibliografia 6 Regressão Simples 115 61 Diagnóstico Dos Coeficientes 62 Diagnóstico Dos Resíduos 63 Diagnóstico De Estabilidade 64 Previsão Forecast 65 ANEXO ESTATÍSTICO 66 Bibliografia 7 Regressão Múltipla 167 71 O modelo com duas variáveis independentes 72 Previsão Forecast 73 Método STEPLS 74 Bibliografia Referências Bibliográficas 180 Parte Um 1 EViews R Do ponto de vista operacional o EViews R é muito mais do que um simples pacote estatístico com uma boa interface Esse software permite ao usuário manter seus modelos atualizados em tempo real conectando o mesmo a dados na internet Permite programar rotinas diversas com vários modelos e a despeito das falhas de testes estatísticos de fronteira o usuário pode ainda se conectar com outros softwares como o R e o Matlab O EViews R pode ser utilizado para análises estatísticas e econométricas de três diferentes maneiras interface gráfica comandos individuais e arquivo de programa A interface gráfica nos remete a tudo que o usuário visualiza e interage através do uso do mouse barra de menus e as janelas como workfile spreadsheet e gráficos a Interface gráfica b Janela de comando c Programa Figura 11 Acessando o EViews R Outra forma de acessarmos as funções do software é por instruções de comando O EViews R nos possibilita duas maneiras a primeira é pela janela de comando em branco logo abaixo da barra de menus Nesta podemos executar instruções de somente uma linha como por exemplo wfcreate u 1000 e pressionar enter pronto criamos um workfile com 1000 observações Tornase útil e veloz quando se está trabalhando com a interface gráfica e quer executar comandos simples A última maneira é por um arquivo de programa no formato prg Através dos programas podemos mandar instruções mais complexas trabalhar com um conjunto superior de dados salvar nossas linhas de programação para aplicações futuras e conectar oEViews R a diferentes bancos de dados 10 Capítulo 1 EViews R ou outros softwares Nesse capítulo faremos uma breve introdução sobre essas três diferentes formas de usar o EViews R 11 Programando no Eviews Para criar um programa é necessário abrir uma porta especifica que fica em FileNewProgram Como workfiles e demais objetos o EViews R nos permite trabalhar com apenas um programa aberto sem nomear por vez o untitled Para dar nome ao seu programa e consequentemente salvar na extensão prg pressione save ou save as na barra de menu da janela do programa e escolha o local desejado Figura 12 Programa sem Título Uma vez salvo os programas podem ser abertos através da barra de menus em File Open e então Programs Para executálos basta pressionar Run na barra de menu da janela do programa aberto Porém muito cuidado ao fazer isso pois se o caminho do programa não coincidir com o banco de dados ou se as variáveis que foram nomeadas não forem iguais será retornado erro 111 Exemplo de Programação No EViews R os programas são executados linha por linha e cada linha é entendida como um comando Comentários não executáveis podem ser adicionados depois do apóstrofo e tomam a cor verde na janela de programação Programação 111 As linhas de comando a seguir criam um workfile uma série aleatória denominada dados e salva o valor da média no escalar a wfcreate u 100 Comentário workfile não estruturado com 100 observações series dados rnd scalar a meandados show a Primeiro é criado um workfile não estruturado utilizando o comando wfcreate u Na segunda linha series é o comando executado para criar ou alterar uma série de dados Aqui nomeamos a série criada com o nome dados e pelo comando rnd geramos valores aleatórios No caso de 11 Programando no Eviews 11 alterarmos a linha 2 para series dados 2 a série dados irá tomar o valor 2 em cada observação Depois de criarmos dados é utilizado o comando meanx para calcular sua média Então guardarmos esse valor dentro de um escalar denominado a O comando show apresenta qualquer objeto na tela nesse caso a Partindo do nosso programa inicial podemos extrair mais informações da série dados Por exemplo para o número de observações desvio padrão valor máximo e mínimo utilizamos respectivamente os comandos obsx stdevx maxx e minx wfcreate u 100 series dados rnd vector5 a a1 obsdados a2 stdevdados a3 meandados a4 maxdados a5 mindados show a Note que no lugar do escalar a utilizamos um vetor a isso nos possibilita guardamos mais posições de informações Esse vetor foi incluído para ter 5 linhas Na mesma linha de raciocínio podemos desenvolver um programa que crie um workfile com agora cinco séries aleatórias e guarde o número de observações desvio padrão valor médio máximo e mínimo wfcreate u 100 matrix55 a for a 1 to 5 series dadosa rnd a1a obsdadosa a2a stdevdadosa a3a meandadosa a4a maxdadosa a5a mindadosa next show a Diferente do programa anterior utilizamos uma matriz 5x5 aao invés do vetor a para acomodar mais de uma coluna Note que usamos o comando a Esse é para permitir que uma variável tenha um intervalo numérico Também é aplicada a instrução for que abre o loop encerrado pelo next Este laço possibilita criarmos um circuito onde a variável atomará inicialmente o valor 1 procederá as linhas seguintes até o comando next que aumenta aem 1 e retorna a execução do programa para a linha do for até que aguarde o valor 5 e quebre o circuito Desta forma sempre que houver um for existirá um next correspondente Para finalizar nosso programa podemos adicionar um cabeçalho à nossa matriz a O EViews R não permite o uso de texto dentro de matrizes e por isso utilizamos tablelinhacoluna que cria um objeto tabela Na terceira até a oitava linha adicionamos o cabeçalho na primeira coluna da tabela a Note que textos são armazenados sendo colocados dentro de aspas 12 Capítulo 1 EViews R wfcreate u 100 table66 a a11 EstatísticasSérie a21 Obs a31 Desvio Padrão a41 Média a51 Máximo a61 Mínimo for a 1 to 5 series dadosa rnd a11a dadosstra a21a obsdadosa a31a stdevdadosa a41a meandadosa a51a maxdadosa a61a mindadosa next show a Outro detalhe a ser observado é na linha 11 onde é preenchido a primeira linha de acom o nome das séries Para a tabela aceitar o dadosseguido dos valores de a1234 e 5 em forma de texto é utilizado o comando strnúmero que transforma os valores numéricos em texto Note que as variáveis de controle iniciadas com exclamação são utilizadas para armazenar números Já as variáveis iniciadas com o símbolo de porcentagem guardam informações de texto Programação 112 Uma maneira prática de manipular um conjunto de séries de tempo é agregando em um grupo Abaixo agrupamos todas as séries do workfile em um grupo de nome g Na segunda linha tiramos a série resid do nosso grupo e então na terceira linha instruímos o EViews R a buscar o nome da primeira série do grupo ge guardar esse informação em a group g gdrop resid a gseriesname1 scalar b meana show b Na quarta linha gravamos a média de adentro do escalar be então exibimos b Note que adicionamos colchetes em a isso faz com que o EViews R execute o texto dentro da variável Não se esqueça de salvar Ao longo desse livro iremos exemplificar diversas ações que podem ser feitas criando seu próprio programa A idéia é que ao final do livro você tenha desenvolvido as habilidades mínimas para criar um programa 12 Como abrir dados no EViews R Há várias formas de abrir dados no EViews R e cada uma delas irá depender do tipo de informação que será utilizado e dos objetivos de pesquisa As opções para criar um banco de dados são muitas 13 Do Excel para o EViews R 13 mas para os propósitos desse livro precisaremos apenas aprender como abrir ou criar os chamados workfile Para tanto iremos dividir essa análise em duas partes Primeiro abordando sobre a criação de um conjunto de dados no Excel que posteriormente são lidos noEViews R A seguir criando um workfile e copiando e colando dados Qual das duas alternativas escolher fica a seu critério 13 Do Excel para o EViews R Vamos supor que se tenha um conjunto de séries de tempo de periodicidade trimestral com início em 2006Q1 e término em 2014Q2 Essas podem ser vistas no arquivo em Excel de nome dadosexemplo1 Figura 13 Importando dados do Excel Como primeiro passo abra o EViews R Note que por hora não há nada disponível nem dados informação sobre a periodicidade e etc A seguir vá em FileOpenForeign Data as Workfile ver figura 13 E selecione o ar quivo em Excel vá até a pasta onde o mesmo foi salvo Depois clique em Ok A janela de opções que se abre a seguir consiste de três passos É muito comum que não se mudem as informações no primeiro e no segundo passos Nesse caso podemos clicar emavançar nesses dois primeiros passos Porém no terceiro passo caso não se modifique algumas opções pode ser que o arquivo final não fique tal como desejado Em especial se não especificarmos a periodicidade e as datas Sendo assim no passo três selecione Dated regular frequency que sempre será utilizado quando tivermos uma série de tempo e depois a periodicidade trimestral Quarterly conforme a figura 14a Por vezes o arquivo do Excel já tem uma série com os dados Nesses casos a opção Dated specified by date series identifica automaticamente a frequência e o início da série basta informar no campo Date series o nome da série que tem essa informação ver figura 14b Por fim digite a data inicial como 2006Q1 e clique em Finish Pronto agora temos um workfile de 30 trimestres contendo cinco séries de tempo com os respectivos nomes que estavam no Excel J30D INF PIB e DES Programação 131 Uma forma de fazer a abertura de um workfile é via programação que dá muita agilidade ao trabalho Basta aplicarmos o comando wfopen seguido do caminho onde se encontra o arquivo com as séries wfopen cexemplo1xlsx Um último ponto importante para salientar nesse momento é sobre a forma que as datas são inseridas no EViews R Como pode ser visto no exemplo acima especificamos primeiro o ano seguido da letra que compõem a periodicidade no caso de trimestre Q e no caso de meses M para então colocar o período Como os dados começam no primeiro trimestre colocamos 1 Se os dados tivessem como início março de 1996 especificaríamos 1996M3 Note que os dados estão no formato Inglês onde os decimais são separados por ponto Caso seu computador estiver no formato Portugês Brasil teremos problema na hora que o EViews R abrir esses dados do excel Ele irá confundir os pontos com as vírgulas A sugestão é reconfigurar o computador para o Inglês americano A localização desta opção pode variar ligeiramente conforme a versão do Windows Para o Windows 7 acesse Painel de ControleRelógio Idioma e RegiãoRegião e Idioma na aba Formatos selecione o Formato Inglês Estados Unidos Então clique em Aplicar 14 Capítulo 1 EViews R a Estrutura frequência regular b Estrutura frequência definida por série Figura 14 Importando Dados e Ok Programação 132 Sempre que for iniciar um programa pode digitar os comandos abaixo para que seu banco de dados seja aberto automaticamente path runpath cd path Ao rodar os comandos acima o caminho utilizado para abrir os dados mostrado na barra de status no canto inferior da tela será alterado para o caminho que foi salvo o programa Sendo assim recomendase colocar o arquivo prgna mesma pasta em que se encontra o wf1 Desta forma se salvarmos o exemplo1xlsx dentro da mesma pasta do programa podemos importar os dados por programação path runpath cd path wfopen exemplo1xlsx Também é possível definirmos um caminho diferente do que o programa está salvo Alterando a primeira linha de comando path cnome da pasta cd path 14 Criando um Workfile 15 wfopen exemplo1xlsx 14 Criando um Workfile Figura 15 Criando Workfile Também podemos copiar os dados que estão no Excel e colar os mes mos no EViews R Nesse caso pre cisamos criar como primeiro passo um workfile Assim abra um novo arquivo do EViews R que não con tenha informações A seguir vá em FileNewWorkfile ou CtrlN Dentre as diversas opções disponí veis selecione Dated regular fre quency a seguir quarterly e especi fique o intervalo dos dados escrevendo a data inicial e final figura 15 Veja como é o formato de datas Primeiro o ano seguido da letra do período e depois o numero do período Programação 141 Para criar um workfile não estruturado utilizamos o comando wfcreate u seguido do número de observações desejadas Para criarmos um workfile mensal utilizamos a opção m seguida da data inicial e final Da mesma forma para frequência trimestral utilizamos q e anual a wfcreate u 100 wfcreate m 1990m1 2015m12 wfcreate q 1990q1 2015q4 wfcreate a 1990 2015 O arquivo que está sendo criado ainda não possui os dados apenas criamos o chamado workfile Para inserir os dados temos que primeiro criar um objeto figura 16a Vá em ObjectNew Object e selecione a opção Group Do lado direito escolha um nome para o grupo evite acentos espaços e etc seja bem simples nessas escolhas A seguir depois de clicar em Ok o EViews R irá abrir uma janela que é bem semelhante com planilhas do Excel Vá no Excel selecione apenas os dados não pegando as datas nem os nomes das séries copie e cole no EViews R A seguir feche o mesmo a Criando Workfile b Criando página com vínculo Figura 16 Novo Objeto 16 Capítulo 1 EViews R Note que agora temos um workfile e os dados mas as séries ficaram com nomes diferentes Isso pode ser resolvido clicando com o botão direito na série e renomeando a mesma Após ter os dados no EViews R há diversas outras formas de trabalhar com eles de forma a tornar a pesquisa mais fácil em especial quando se trabalha com uma grande quantidade de informação e diversos testes e estimativas Uma opção interessante do EViews R é o uso de diversas planilhas ao mesmo tempo sendo possível preservar o vínculo entre as variáveis Tal recurso permite trabalhar com diversos modelos separados por planilhas sem poluir o workfile principal Selecione as variáveis des inf j30d e pib A seguir clique com o botão direito do mouse na planilha de nome New Page selecione CopyExtract from Current Page e depois By Link to New Page Na janela que será aberta ao escrever all o EViews R irá copiar todo o período amostral Em Objects to copy selecione Listed Series como mostrado na figura 17 e deixe a opção Include Links selecionada Caso queira dar um nome para a nova planilha clique emPage Destination e em Page escreva o nome que quiser Figura 17 Objetos com vínculo Note que será criada uma nova planilha com os dados selecionados com cores diferentes Agora sempre que os dados nas séries da planilha original forem modificados o mesmo irá ocorrer com essas séries na nova planilha 15 Abrindo os dados do FRED Uma das funcionalidades interessantes do EViews R é poder abrir diversos formatos de dados e um deles que é bastante útil para análise de conjuntura são os dados do FRED que é uma base de dados disponibilizada pelo Federal Reserve of Saint Louis1 Como esse é um banco de dados disponibilizado na internet sua leitura só é possível se houver conexão à internet O primeiro passo é descobrir o nome da série que se quer abrir Nesse caso vá no site do Federal Reserve Board of Saint Louis e descubra o código da série que se busca Como exemplo vamos usar o PIB Real dos EUA em dólares de 2005 cujo código é GDPC1 Agora abra um arquivo do EViews R vá em File Open Database e selecione FRED database e clique e ok A janela que irá ser aberta é a que permite fazer a conexão com o banco de dados tal como a Figura 18a A seguir vá em EasyQuery abrindo a caixa de diálogo da Figura 1Se você ainda não conhece esse recurso vale a pena ver em httpresearchstlouisfedorgfred2 15 Abrindo os dados do FRED 17 a Seleção da Base de Dados b Easy Query Figura 18 Abrindo dados do FRED 18b e em name MATCHES escreva o nome da série No nosso caso GDPC1 e clique em ok A seguir dê dois cliques na série e exporte a mesma para um banco de dados Posteriormente iremos mostrar como é possível você mesmo criar um link entre o EViews R e um banco de dados que se queira para atualização automática Também é possível criar um addin que faz essa seleção automática é representada a partir de Fxx Pa x b ab fxdx Descoberta a função de densidade podemos usar a distribuição cumulativa Esta irá determinar o quanto da curva ou da probabilidade existe até determinado valor que se queira avaliar Para o exemplo de uma curva normal podemos encontrar qual a probabilidade de se ter um valor menor que x por exemplo Esse é dado por toda a área abaixo da curva e que é inferior ao ponto x O conceito de distribuição cumulativa é muito importante para os propósitos do entendimento da econometria e em testes de hipótese pois usamos esse conceito para encontrar o pvalor nos testes Para encontrar a resposta na distribuição cumulativa especificamos o ponto da curva que se queira e encontramos a área probabilidade até esse ponto A função do EViews que iremos utilizar para a distribuição cumulativa para o caso de termos uma distribuição normal é a cnorm e a área escura mostrada na figura 31 é a área resultante3 Mais a frente ao estudarmos sobre os testes de hipótese ficará claro que a área dada por 1 cnorm representa o pvalor ou como é comumente escrito probability Em termos matemáticos a representação da função de distribuição cumulativa é dada por Fx Pz x No exemplo da Figura 31 a área dada por cnormx pode ser representada a partir de Fx x fxdx Por fim a distribuição inversa irá representar a área da curva que é complementar à função de distribuição cumulativa Agora fazemos o procedimento inverso da cumulativa especificamos a área desejada e com isso obtemos o ponto na curva que representa essa área Aqui temos conhecimento da área da curva que estamos avaliando e queremos encontrar o ponto associado No EViews o comando utilizado para a distribuição inversa para o exemplo de uma curva normal é qnorm Todas essas três formas de avaliar uma função de distribuição estão disponíveis noEViews e serão aplicadas a diferentes formas de distribuição a seguir Nesse caso para cada uma das opções de uma distribuição o EViews fornece códigos diferentes Por exemplo para uma função de distribuição cumulativa também denominada de CDF usase o comando c Para uma função de probabilidade densidade usase d e por fim para uma função inversa q Também é possível criar funções de distribuição aleatórias a partir do comando r que gera números aleatórios Veremos isso nas aplicações para as diferentes distribuições a serem analisadas nos tópicos a seguir 3De maneira análoga ao visto na função de densidade cumulativa é precedida da letra c nos comandos do EViews Por exemplo clognorm cpareto cpoisson ctdist 2 Gráficos no EViews R O recurso de gráficos em econometria é muito útil para uma detecção prévia das características de um conjunto de dados como por exemplo sua distribuição a existência de tendência movimentos cíclicos sazonalidade outliers quebra estrutural clusters dentre outras No EViews R é possível personalizar a construção de gráficos escolhendo cores tamanho e estilo de letra linhas de tendência combinar diferentes tipos de gráficos vincular os mesmos aos dados e demais aspectos Há outras opções disponíveis em OptionsGraphics Default Deixamos para o leitor explorar esse ponto consultando o manual que acompanha o software Nesse capítulo iremos utilizar o arquivo do EViews R de nome exemplo1wf1 Abra o mesmo Ali irá ver cinco séries de dados de nome qx y px pm qm Inicialmente dê dois cliques na série de nome qx O EViews R irá abrir uma janela que se parece com as planilhas do Excel A sequência de dados que vemos é denominada de série de tempo Note que na primeira coluna temos as respectivas datas que para esse exemplo é trimestral com início no primeiro trimestre de 1997 e terminando no segundo trimestre de 2015 Porém o intervalo vai até 2015Q4 o que resulta em uma sequencia de células que estão vazias com o termo NA Isso irá facilitar quando quisermos prever o comportamento dos dados para alguns períodos a frente Veremos isso no capítulo de regressão simples A seguir a partir do menu ViewGraph Note que há várias opções de gráficos O mais comum e que será mais explorado aqui é fazer um gráfico de linha Selecione esse e o resultado é como aparece na figura 21 Alternativamente podemos fazer um gráfico de barras para esse conjunto de dados Clique com o botão direito do mouse sobre o gráfico e depois Options e selecione Bar O mesmo pode ser aplicado a cada uma das outras opções Outra alternativa é usar o menu opções localizado logo acima do gráfico Note que ao fazer o gráfico aparece na parte inferior do mesmo uma barra de rolagem A partir dessa podemos deslizar o gráfico para diferentes datas basta que mova o cursor na barra para a esquerda ou para a direita O EViews R permite que se escolha entre diferentes maneiras de apresentar os gráficos mudando o fundo para cor branca tornando as linhas mais nítidas mudando a cor das linhas e etc Para verificar todas essas opções com o gráfico aberto clique com o botão direito do mouse e selecione 20 Capítulo 2 Gráficos no EViews R Figura 21 Opções de Gráficos Templates A seguir escolha cada um dos modelos e antes de clicar em Ok clique em Apply para ver se te agrada Programação 201 Para fazer um gráfico usamos o comando graph Para o exemplo de um gráfico de linha aplicado à série qx colocamos o termo abaixo criando um gráfico de nome gqx A seguir especificamos que a linha tem cor vermelha dado pelo RGB25500a graph gqxline qx gqxsetelem linecolor25500 Dentre as várias opções a serem utilizadas em um gráfico de linha uma das mais úteis para a econometria é a padronização dos dados Nesse caso o que fazemos é criar um gráfico onde cada informação é subtraída da média e depois dividida pelo desviopadrão Assim o resultado final é uma nova sequencia de dados onde a média é zero e o desviopadrão é 1 Para essa opção use graph gqxlinen qx aSe quiser outra cor consulte os códigos de cores RGB Após criar o gráfico como mostrado no box de programação o produto final é um gráfico no estilo congelado ou frozen Esse é uma espécie de gráfico desvinculado dos dados O inconveniente dessa opção é que toda vez que os dados originais forem atualizados isso não será feito no nosso gráfico ou seja ao aplicar o freeze no gráfico o mesmo perde o vínculo com os dados Para contornar esse problema devemos voltar a vincular os dados ao gráfico Dê dois cliques no gráfico gqx A seguir selecione Graph Updating e do lado direito as opções Automatic e mais abaixo Update when data or the workfile sample changes Programação 202 Podemos montar um programa que faça automaticamente a atualização dos nossos gráficos Primeiro criamos um gráfico de nome gqx e depois especificamos pelo comando setupdate e entre parênteses a que o mesmo seja atualizado sempre que o conjunto de dados mudarem Ao fazer isso note que a cor da caixa que especifica o gráfico no workfile muda da cor verde para alaranjado 21 Figura 22 Gráfico de qx com a distribuição de frequência graph gqxlinen qx gqxsetupdatea Vimos anteriormente que também temos a opção de criar um gráfico de barra Porém essa não é muito interessante quando há uma série de dados com muitas informações isso porque as barras acabam ficando muito finas fazendo com que o gráfico de barras se aproxime de um gráfico de área Para o exemplo da série qx selecione a opção de gráfico de barra e veja como fica Caso a sua escolha seja para um gráfico de barra há várias opções interessantes Clique duas vezes no gráfico e selecione Graph ElementsBarAreaPie Ali será possível escolher entre gráficos com efeito de cores 3D colocar os respectivos valores em cada barra e diversas outras opções Outra possibilidade de uso dos gráficos no EViews R é combinar diferentes informações Por exemplo vamos ver como fazer um gráfico que mostre simultaneamente a evolução dos dados no tempo e a distribuição dos mesmos Com a série qx aberta vá em ViewGraph selecione LineSymbol e depois na opção Axis borders escolha Histogram Também há a opção de usar a densidade de kernel Note que a série é mostrada considerando as datas no eixo horizontal e as escalas no vertical A distribuição de frequência dos dados é colocada nesse eixo Programação 203 Esse gráfico também pode ser feito a partir da opção abhist no comando line como mostrado a seguir graph gqxlineabhist qx Alternativamente se quisermos especificar ma distribuição de kernel ao invés da distribuição de frequência podemos usar o comando graph gqxlineabk qx Além disso podemos adicionar um texto para identificar nosso gráfico No exemplo abaixo colocamos um título série de dados qx entre aspas com uma fonte de tamanho 12 do tipo ubuntu light Por fim o comando t especifica que o texto é centralizado gqxaddtextpt12faceubuntu lightt Serie de dados qx Algumas opções para gráficos no EViews R somente se tornam disponíveis quando o gráfico é 22 Capítulo 2 Gráficos no EViews R Figura 23 Gráfico de qx com area um objetonomeado ou não Pela linha de comando criamos automaticamente o objeto a exemplo do gráfico gqx criado acima Para tanto na interface gráfica utilizamos a função Freeze Faça um gráfico da série qx e no menu superior poderá ver essa função Uma das funções interessantes do EViews R é marcar períodos específicos de dados com uma área escura muito útil quando estamos avaliando ciclo dos negócios e gostaríamos de sinalizar os períodos em que uma economia estava em recessão Ou então queremos apenas sinalizar um intervalo de tempo para mostrar algum acontecimento Para usar essa função clique com o botão direito do mouse no gráfico e a seguir selecione Add lines shading Note que esse recurso não está disponível para gráficos comuns Como dito anteriormente para habilitar essa função devemos selecionar antes o Freeze A seguir clique com o botão direito do mouse selecione Add lines shading marque Shaded Area deixe em Vertical Bottom axis e mude o período para 2008Q2 até 2009Q1 Caso não esteja satisfeito com esse intervalo clique duas vezes sobre a área cinza e modifique o intervalo Lembre que a opção Freeze tem a desvantagem de não ser atualizada sempre que os dados forem atualizados Podemos contornar isso Com o gráfico aberto dê dois cliques e depois selecione Graph Updating A seguir selecione a opção Automatic e Update when data or the workfile sample changes Isso irá permitir que o gráfico seja atualizado sempre que os dados forem modificados no workfile Programação 204 Uma opção interessante a ser utilizada em gráficos é especificar uma área em um determinado período Isso pode ser feito a partir do comando draw Dentre as opções escolhemos que a área segue as datas na parte horizontal bottom a cor cinza gray e o período compreendido gqxdrawshadebottomcolorgray 2008Q2 2009Q1 Outra opção que pode ser utilizada é mostrar duas séries de dados no mesmo gráfico em especial quando as mesmas possuem escalas diferentes Nesse caso se fizermos esse gráfico com apenas um eixo vertical visualmente podemos ter uma informação de baixa qualidade O EViews R permite que se faça um gráfico com dois eixos cada um com escala diferente 23 Figura 24 Gráfico de qx e px Isso pode ser feito depois de se criar um grupo com as séries que se quer ilustrar Selecione primeiro a série qx Com o botão Ctrl do teclado pressionado selecione a série px A seguir clique com o botão direito do mouse e Open as Group O EViews R irá abrir as duas séries em conjunto uma em cada coluna A seguir clique em ViewGraph e depois em Ok Note que temos uma única escala do lado esquerdo do gráfico Agora clique com o botão direito do mouse vá em options e Axes Scaling e depois Data scaling A seguir do lado direito da tela para cada série selecionada escolha a escala que quer colocála se esquerda ou direita Nesse exemplo escolhemos deixar a série qx no eixo esquerdo e a px no direito Como exercício veja se consegue também inserir a informação da distribuição de freqüência para cada conjunto de dados como mostrado na figura 24 Programação 205 Um gráfico com duas linhas em duas colunas de escalas diferentes pode ser obtido a partir de uma instrução por linha de comando Nesse caso usamos d que permite criar um gráfico com duas colunas Não se esqueça de especificar qual é a segunda série de dados que se quer colocar junto No exemplo abaixo usamos a série px Note que também especificamos a opção de histograma graph gqxlineabhistd qx px Outra forma de usar os recursos gráficos é para identificar características estatísticas dos dados uma possível relação entre diferentes variáveis dentre outras opções Vamos iniciar essa discussão mostrando como são as funções de distribuição Selecione a série qx A seguir vá em ViewGraph e em Graph Type selecione Distribution Do lado direito em Details poderá ver que há diversas opções de gráfico Selecionando Histogram o EViews R irá retornar a distribuição dos dados de acordo com intervalos pré determinados Essa análise pode ser complementada com um gráfico que tem o mesmo formato mas que ao invés de ser uma distribuição de frequência seja uma função de densidade ou então uma função de frequência relativa Essas três opções podem ser selecionadas ao lado da opção Histogram na caixa Options Vá em Scaling e selecione Density O desenho não irá mudar mas note que a escala vertical sim Isso porque no caso da frequência temos no eixo vertical a informação do número de dados encontrados para cada intervalo No caso da densidade estamos falando da área o que também será diferente para o caso de se selecionar Relative frequency Vamos agora adicionar uma estimativa da função de distribuição utilizando uma função de Kernel Com a série de dados qx aberta faça o gráfico de distribuição e a seguir clique em Options 24 Capítulo 2 Gráficos no EViews R Figura 25 Gráfico de Distribuição de Frequência Figura 26 Adicionando uma densidade de Kernel A seguir na caixa Details selecione Options e depois em Add Escolha Kernel density e clique em ok A figura 26 mostra o resultado1 Note que há várias opções para a densidade de kernel A figura 27 a seguir mostra a comparação entre essas diversas funções utilizadas para estimar a função de densidade de kernel Note que há pouca diferença entre os resultados Programação 206 Para fazer um gráfico de distribuição conjugado com uma estimativa via densidade de Kernel podemos usar o seguinte comando qxdistplot hist kernel Ou então se quisermos colocar em um único gráfico as diversas estimativas das funções de 1A ferramenta de determinar a densidade de kernel é uma forma nãoparamétrica utilizada para determinar a densidade de uma função de distribuição de dados aleatórios onde não conhecemos a função de distribuição verdadeira Nesse caso fazemos inferência sobre essa distribuição utilizando estatísticas da amostra que temos Há várias funções de kernel disponíveis no EViews R Epanechnikov uniformetriangular normal biweight triweight e cosinus Se a opção é utilizar a kernel normal então na sua estimativa é utilizada uma função de densidade normal padrão 25 Figura 27 Comparação entre diversas funções de densidade de Kernel Figura 28 Gráfico de Distribuição de Freqüência kernel usamos qxdistplot kernelkux kernelke kernelkr kernelkn kernelkb kernelkt kernelkc Alternativamente com o gráfico aberto clique em ProcMake Distribution Plot Data Como pode ser visto há várias opções de distribuição que podemos investigar Voltando ao nosso exemplo da distribuição de frequência vá em Options depois em Add e podemos ver que há diversas opções além do histograma Já exemplificamos o uso da densidade de kernel Selecione agora Theorical Density e clique em Ok A seguir clique novamente em Theorical distribution e veja que há diversas opções de funções de distribuição Selecione a Normal e escolha os parâmetros Se a escolha for µ 0 e σ 1 então simularemos uma curva normal padrão junto com nosso histograma dos dados como pode ser visto na figura 28 Programação 207 Para inserir um gráfico com distribuição teórica junto com o histograma podemos usar o seguinte comando 26 Capítulo 2 Gráficos no EViews R qxdistplot hist theorydistnormal As opções de construção de gráficos também permite que sejam investigadas características dessa distribuição Como se sabe a função de distribuição cumulativa de dados que possuem uma distribuição normal tem o formato de um S Mais a frente entraremos em detalhe sobre a função cumulativa e sua importância na determinação das probabilidades associadas a valores na construção de intervalos de probabilidade teste de hipótese e uso em modelos como probit Para investigar se os nossos dados possuem essa característica com o gráfico aberto clique com o botão direito do mouse e selecione Options A seguir do lado direito da tela em distribution selecione a opção Empirical CDF que irá retornar os resultados para uma função de ditribuição cumulativa Como pode ser visto pela figura 29a os nossos dados não parecem ter uma distribuição normal Outra forma de verificar isso é via quantis Abra a série qx clique em ViewGraph e na tela Graph Type na parte Specific clique em QuantileQuantile e depois em QQ graph e selecione Theoretical Note que em ambos os resultados mostrados na figura 29 não há evidências de uma distribuição normal Porém para confirmar tal resultado é necessário que se faça um teste específico que será explicado no Capítulo 4 A Figura 29 representa o gráfico da distribuição cumulativa associa a cada valor no eixo horizontal o percentual de vezes que o mesmo se encontra no conjunto de dados que são menores ou iguais a esse valor Dessa forma no eixo vertical fica descrita essa participação percentual também denominada de frequência Note que como estamos falando de distribuição acumulada ao final teremos uma frequência de valor 1 ou seja 100 No gráfico da Figura 29a o valor 70 estaria associado a uma frequência de 033 no eixo vertical Ou seja a probabilidade de encontrarmos um valor no nosso banco de dados que é menor que 70 Px 70 033 é de 33 Além de mostrar essa linha o EViews R também coloca o intervalo de confiança apresentado pela linha pontilhada a Função distribuição cumulativa b Quantis Figura 29 Gráfico da empirical CDF e quantilequantile Programação 208 Para ver o gráfico da empirical CDF usamos o comando abaixo qxdistplot cdf E para fazer o gráfico do quantilequantile usamos 27 qxdistplot quantile Além dos gráficos para uma série de dados apenas podemos ver como se dá a relação entre dois conjuntos de dados uma investigação prévia dos resultados da regressão simples Nesse caso vamos comparar o resultado da série y com a série qx considerando que qxfy Primeiro selecione a variável y e depois qx e clique com o botão direito do mouse abrindo ambas como grupo A ordem das variáveis aqui importa na hora de verificar o resultado final Selecione sempre a variável independente e depois a dependente para esse tipo de gráfico A seguir em ViewGraph selecione o gráfico tipo Scatter e em Fit lines escolha Regression Line Isso irá adicionar uma linha de regressão entre as duas variáveis Depois para mostrar o resultado da linha de regressão clique em Options e em Legend Labels selecione Detailed Por fim em Axis borders selecione Kernel density para termos a informação da distribuição de kernel para cada um dos dados O gráfico resultante irá indicar a relação positiva entre os dois conjuntos de dados e em cada eixo a estimativa da distribuição de kernel para cada um desses conjuntos Também será mostrado o resultado da equação de regressão simples Figura 210 Scatter e linha de regressão entre qx e y Programação 209 Para fazer um gráfico do tipo scatter plot entre duas variáveis inserindo uma curva de regressão e mostrando o resultado da equação de regressão devemos primeiro fazer o grupo com as variáveis de interesse e depois pedir o gráfico Por fim usamos a opção kernel para mostrar a distribuição de kernel nos eixos group g1 y qx g1scatabkernel linefitlegdet Alternativamente podese estar interessado em ver a relação de todas as variáveis em pares Nesse caso selecione todas as séries qx y px pm qm e abra como grupo A seguir em ViewGraph escolha Scatter em Fit lines selecione Regression Line e em Multiple series selecione Lower triangular matrix é uma matriz simétrica O EViews R irá retornar a relação em par de todas as variáveis Programação 2010 Para fazer um gráfico do tipo scatter plot entre diversas variáveis inse 28 Capítulo 2 Gráficos no EViews R Figura 211 Scatter e linha de regressão entre todas as variáveis rindo uma curva de regressão devemos primeiro fazer o grupo com as variáveis de interesse e depois pedir o gráfico Por fim usamos a opção kernel para mostrar a distribuição de kernel nos eixos O comando m especifica que são múltiplos gráficos O comando multl especifica que é uma matriz de gráficos triangular inferior group g1 y qx px pm qm g1scatm multlabkernel linefitlegdet 21 Dados Categóricos O formato de dados conhecido como categóricos é muito comum na investigação em economia Podemos citar por exemplo o uso de microdados da PNADIBGE onde temos informações de indivíduos com suas respectivas características como idade cor sexo situação matrimonial salário e etc Os gráficos que são feitos considerando dados categóricos são diferentes daqueles utilizados em séries de tempo Para ilustrar o uso de gráficos com dados categóricos usamos os dados de exemplo do EViews R gulfcoastwf1 Nesse estão informações sobre demografia de distritos localizados em uma região dos EUA São 234 informações com 117 distritos cada qual com duas informações em dois momentos do tempo Os dados estão organizados no formato UnstructuredUndated São quatro series pop população em 1000 para cada distrito pdiff popprevious e year Como são dois momentos no tempo a organização dos dados segue uma lógica de primeiro mostrar os 117 resultados para o ano de 2005 e depois os 117 resultados para o ano de 2006 Note que são criados identificadores para os indivíduos O Countycode mostra o código de cada municípioCountyname o nome dos 22 Exemplos de programasprg 29 Figura 212 Dados categóricos soma da população por ano municípios que se repetem a partir da observação de número 118 O id mostra o estado associado ao distrito statecode o código do estado e statename o nome do estado Vejamos como seria um gráfico que compara o total da população dos 117 distritos em cada um dos dois anos analisados Abra a série pop e depois vá em ViewGraph e mude para a opção Categorical graph A seguir selecione a opção Bar para fazermos um gráfico de barras e depois em Betails use Sums para termos a soma da população em cada um dos anos Note no detalhe que especificamos na opção Within graph a série year Isso irá fazer com que o programa entenda que há dois momentos no banco de dados 22 Exemplos de programasprg Com os conhecimentos adquiridos neste capítulo somos capazes de criar programas para formatar nossos gráficos de uma mesma maneira padronizando trabalhos de forma fácil Para criar um programa clique em File então New e Program Programação 221 Com o exemplo1wf1 aberto o programa abaixo irá gerar um gráfico de linha na cor preta para cada uma das séries padronizadas adicionando uma linha pontilhada na média zero e redimencinará o tamanho for a y qx px pm qm graph galinen a gasetelem linecolor000 gadrawdashline left rgb172172172 0 gaoptions size62 show ga next Programação 222 Abaixo a sequência de comandos que utilizamos para abrir automatica mente o exemplo1wf1 criar um gráfico com as séries qx e px uma em cada eixo com as respectivas funções de distribuição Além de pintar na cor vermelha qx e px em azul adicionar a barra cinza vertical entre 2008Q2 e 2009Q1 e adicionar o título ao gráfico path runpath 30 Capítulo 2 Gráficos no EViews R cd path load exemplo1wf1 graph gqxlineabhistd qx px gqxsetelem1 linecolor25500 gqxsetelem2 linecolor132112255 gqxdrawshadebottomcolorgray 2008Q2 2009Q1 gqxaddtextpt12faceubuntu lightt Series QX e PX show gqx Com a utilização de subrotinas podemos sofisticar nossos programas A criação destas é feita da mesma forma que um programa FileNewProgram Para chamaruma subrotina dentro de um programa é necessário especificar o caminho exato da mesma Caso o caminho inteiro não seja especificado o programaprg deve estar salvo dentro do mesmo diretório da subrotina a ser excutada Programação 223 A subrotina subrecessoescodaceprg descrita a seguir destaca as reces sões do ciclo de negócios brasileiro datado pelo Comitê de Datação de Ciclos Econômicos CODACE em 30 de Julho de 2015 subroutine recessoescodacegraph g1 g1drawshadebottom 1981Q1 1983Q1 g1drawshadebottom 1987Q3 1988Q4 g1drawshadebottom 1989Q3 1992Q1 g1drawshadebottom 1995Q2 1995Q3 g1drawshadebottom 1998Q1 1999Q1 g1drawshadebottom 2001Q2 2001Q4 g1drawshadebottom 2003Q1 2003Q2 g1drawshadebottom 2008Q4 2009Q1 g1drawshadebottom color255100100 2014Q2 2015Q2 endsub Com o exemplo2wf1 aberto rode o programa progrecessoescodaceprg descrito abaixo Esse utiliza da subrotina subrecessoescodaceprg e por isso ambos devem ser salvos na mesma pasta antes da execução include subrecessoescodaceprg Arquivo com a subroutina CODACE graph gpxlined pib x Cria o gráfico gpx com duas escalas gpxsetelem1 legendPIB Brasil Adiciona legenda da série 1 gpxsetelem2 legendExportações Brasil Adiciona legenda da série 2 gpxsetelem2 linecolor000 Altera cor da linha da série 2 Chama subrotina para marcar as recessoes segundo CODACE call recessoescodacegpx show gpx Apresenta gráfico gpx na tela Com base nos programas apresentados acima inclua a subrotina subrecessoescodaceprg ao programa 222 Destacando as recessões do ciclo de negócios brasileiro datado pelo CODACE nos gráficos de todas as séries do exemplo1wf1 3 Funções de Distribuição O EViews R permite a construção de diversas curvas de distribuição que podem tanto serem discretas quanto contínuas As mais utilizadas em testes de econometria são as funções normal tstudent lognormal F e quiquadrado que aqui iremos ilustrar1 Ao trabalhar com funções de distribuição devemos compreender dois pontos importantes O primeiro é se a variável em questão é categórica ou numérica e o segundo as diferenças que existem entre uma função de probabilidade ou densidade uma distribuição cumulativa e uma distribuição inversa que é a inversa da função cumulativa As variáveis categóricas são fáceis de identificar Ao aplicar um questionário com perguntas que contenham respostas como do tipo sexo nacionalidade e etc obtemos como resposta características e não números Essa classificação será importante para definir que tipo de teste irá usar para avaliar os resultados Por exemplo se perguntarmos o sexo dos entrevistados temos respostas categóricas como homem ou mulher Por outro lado se perguntarmos a idade teremos respostas numéricas Essas podem tanto serem discretas ou seja 25 anos 35 anos ou contínuas expressando a idade inclusive em minutos 13140325 minutos de vida A função de densidade representa a distribuição de probabilidade de uma variável aleatória É como a probabilidade irá se comportar de acordo com os valores que essa variável aleatória irá assumir É comum não conhecermos a função de densidade que irá representar o nosso conjunto de dados Por isso que fazemos testes para ver se os nossos dados possuem uma distribuição que pode ser aproximada por exemplo por uma curva normal uma curva tstudent uma curva F ou qualquer outra Dada a nossa função de densidade toda a área abaixo da curva deverá somar 1 que é a probabilidade da variável assumir qualquer valor NoEViews R supondo uma curva normal a função densidade é utilizada a partir do comando dnorm onde dentro do parênteses podemos colocar os valores do banco de dados2 A função de densidade pode ser determinada fazendo a derivada da função de distribuição cumulativa Em termos matemáticos uma função densidade de x 1Há diversas outras distribuições contínuas em estatística como a Beta de Cauchy Exponencial Gamma Gum bel Logística Uniforme e de Weibull Dentre as distribuições contínuas destaque para a Binomial Geométrica Hipergeométrica Multinomial e de Poisson 2Os códigos das diferentes funções de densidade no EViews são precedidos da letra d Por exemplo dlogistic dpareto dpoisson dtdist dunif 32 A curva tstudent A função de distribuição mais utilizada em testes de hipótese é a tstudent criada por William Sealy Gosset que acabou adotando o nome de student para representar a função É uma distribuição simétrica como a curva normal mas possui caldas mais largas o que a torna mais útil para representar distribuição de dados com valores extremos como é comum não conhecermos a variância da população que estamos analisando não podemos usar a curva normal E é aqui que a curva tstudent se torna interessante e útil Um parâmetro importante na curva tstudent é o vgraus de liberdade Quanto maior for seu valor mais a curva tstudent irá se aproximar da curva normal Mas o que significa os graus de liberdade Suponha que temos um teste de laboratório a ser feito e coletamos uma amostra de 80 informações Nesse caso temos que vn1 ou seja v79 graus de liberdade Por isso que dizemos que quanto maior for o número de graus de liberdade da distribuição tstudent mais ela se aproxima da curva normal Ou seja quanto maior for a amostra n maior será o valor de v Na Figura 38 estão simuladas uma curva normal e várias curvas tstudent com diferentes graus de liberdade com v2 v5 e v10 Note que na medida em que esse parâmetro aumenta a curva tstudent vai se tornando mais próxima da curva normal tornando a diferença entre elas quase imperceptível Suponha que temos uma série de dados Z com distribuição normal padrão e um outro conjunto de dados Q20 com distribuição qquadrado com 20 graus de liberdade veremos essa curva mais a frente Além disso suponha que Z e Q são séries de dados independentes Se dividirmos uma série pela outra teremos um conjunto de dados resultante com uma distribuição tstudent com 20 graus de liberdade Na fórmula abaixo o parâmetro v representa os graus de liberdade tv z Qv v Para montar isso vamos especificar zrnorm e q qchisqrnd20 a seguir use o comando series zq zsqrtq20 e compare com uma curva encontrada a partir de series t rtdist20 Programação 321 Para criar uma variável aleatória que tenha distribuição tstudent usamos o comando abaixo Note que há um parâmetro adicional a ser especificado v que representa os 31 A Curva Normal 33 31 A Curva Normal Essa é uma das mais importantes e também mais usadas funções de distribuição de probabilidade também denominada de curva de Gauss Suponha uma variável aleatória X com n dados Se estamos assumindo que essa variável tem uma distribuição normal podemos determinar cada ponto dessa curva a partir da equação z 1 σ 2π e xµ2 2σ2 31 Onde µ é a média da variável aleatória X σ é o seu respectivo desviopadrão e x o ponto a ser avaliado Um caso particular e muito útil dessa curva é a normal padrão Nesta a média é zero e o desviopadrão 1 Destacase que mesmo que nossa variável X não tenha média igual a zero e desviopadrão 1 podemos converter os mesmos para essas medidas no que se denomina de padronização Como forma de ilustrar o uso de funções de distribuição vamos criar um arquivo com 1 milhão de dados aleatórios Abra o EViews R e clique em Create a New EViews R workfile A seguir escolha uma estrutura tal como mostrado na figura 32a digite 1000000 para especificar o número de observações que iremos usar e dê um nome para o WF workfile e a página A partir de 31 podeos ver que uma curva norma padrão é representada por z 1 2π e x2 2 32 a Distribuição b Com densidade de Karnel Figura 32 Alterando o intervalo Você pode modificar a qualquer momento o tamanho desse banco de dados basta clicar duas vezes em Range e aumentar ou diminuir o intervalo Note que nesse momento não há nenhuma informação ou seja nenhum dado associado Como primeiro passo vamos simular uma variável aleatória que tenha 1 milhão de dados definindo que a mesma tenha uma distribuição normal Para fazer isso vamos usar o comando rnorm como mostrado no box de programação Programação 311 Podemos gerar números aleatórios no EViews R de várias formas Para criar um arquivo do EViews R com dados inteiros no total de 1 milhão ou seja uma serie com 1000000 linhas usamos o comando abaixo no arquivo rndseed 10 series zrnorm 34 Capítulo 3 Funções de Distribuição Dica Muitas vezes é melhor usar o conceito de series do que vector Ao iniciar os comandos descritos no box programação determinamos a série aleatória utilizada com o comando rndseed 10 e criamos uma série denominada z de 1 milhão de dados aleatórios com o comando rnorm Ao repetir esse procedimento sem aplicar rndseed 10 ou utilizando qualquer outro gerador aleatório rndseed 1 por exemplo a sequência de dados irá diferir a cada momento Porém como especificamos que os dados seguem uma distribuição normal padrão a partir de norm sempre que simular um novo conjunto de informações ela terá a mesma distribuição Para confirmar faça um gráfico de distribuição dos nossos dados Abra a série z vá em View Graph em tipo de gráfico selecione distribution e depois clique em ok A seguir adicione uma estimativa da curva a partir da densidade de kernel Dica com a opção gráfico aberta vá em details e crie um gráfico personalizado custom Outra contribuição interessante para visualizar é comparar nosso conjunto de dados com uma distribuição normal teórica ou seja uma curva normal que seja criada a partir da função Com o gráfico aberto clique em options a seguir do lado direito em options novamente Depois em add e theoretical density Vamos escolher primeiro uma curva normal e clique em ok Note que a mesma fica praticamente imperceptível uma vez que a curva teórica se mistura com a curva estimada pela densidade de kernel Figura 33b a Distribuição b Com densidade de Karnel Figura 33 Distribuição Normal Programação 312 Para fazer um gráfico que tenha o histograma de uma série e mais duas curvas teóricas com diferentes valores para a média podemos usar o comando abaixo O termo p11 representa a média1 zdistplot hist theorydistnormalp11 theorydistnormalp12 Para fazer o mesmo gráfico mas com diferentes valores para o desviopadrão especificando três diferentes curvas que é o segundo parâmetro na curva normal usamos zdistplot hist theorydistnormalp21 theorydistnormalp22 theorydistnormalp23 Podemos mudar os parâmetros dessa densidade teórica para que ela fique mais nítida Repita os passos a seguir e em theoretical density especifique média 1 e desvio padrão 1 Note que agora a curva de cor verde se desloca para a direita na Figura 34a Esse procedimento pode ser repetido para diferentes valores de média e desvio padrão e dessa 31 A Curva Normal 35 a b Figura 34 Alterando a média e o desviopadrão forma podemos encontrar diferentes formatos para a curva normal Para exemplificar isso com o gráfico aberto clique em options A seguir em options novamente e do lado esquerdo apague os gráficos histogram e kernel Acrescente mais duas curvas normais teóricas No total teremos três curvas figura 34b Agora deixe todas com média igual a zero e faça para a primeira curva desvio padrão igual a 1 depois para a segunda um desvio padrão igual a 2 e para a terceira curva desvio padrão igual a 3 Clique em ok e você irá gerar o gráfico da Figura 34b Ao especificar diferentes valores para o desviopadrão na curva estamos determinando o que se conhece como curtose Note que para a curva azul no gráfico 34b temos uma maior concentração de dados em torno da média e na curva verde mais achatada os dados são mais espalhados Iremos ver como obter o resultado estatístico da curtose a partir da média e do desvio padrão no próximo capítulo Mas o leitor já pode ir se familiarizando com o formato de uma distribuição de dados com diferentes desvios em torno da média Programação 313 Para avaliar a função de densidade em um ponto qualquer da nossa função de distribuição podemos usar o comando d antes da distribuição que está sendo avaliada Para o caso de uma distribuição normal com média 0 e desviopadrão 1 usamos scalar rdnorm0 Aqui o comando scalar cria a caixa de nome r para receber o valor da distribuição A seguir especificamos d para determinar que queremos a função de densidade seguido de norm que é a curva normal com média 0 e desviopadrão 1 e por fim o valor 0 entre parênteses especifica que estamos avaliando a densidade naquele valor Agora que já sabemos como gerar uma curva normal aleatoriamente vamos testar outras opções Suponha que se queira um conjunto de dados que segue determinados parâmetros por exemplo média igual a 0 e desviopadrão igual a 1 Nesse caso podemos criar a série x usando apenas o comando nrnd Por outro lado se queremos especificar uma média diferente como por exemplo 100 e variância igual a 22 o melhor é usar uma equação Nesse caso criamos a série y e o comando sqr representa a raiz de 22 que seria o desviopadrão A seguir multiplicamos esse por uma série gerada aleatoriamente com distribuição normal Programação 314 Também podemos gerar uma série de dados que segue uma distribuição 36 Capítulo 3 Funções de Distribuição normal com média zero e desviopadrão igual a 1 usando o comando nrnd Series xnrnd Alternativamente para gerar uma série de dados que tem média igual a 100 e variância igual a 22 usase Series y100sqr22nrnd O comando que especifica uma distribuição inversa também pode ser utilizado para gerar uma sequência de números aleatórios porém partindo de probabilidades Vamos escolher a distribuição normal para exemplificar criando uma série de nome t e usando o comando q Programação 315 Por fim podemos gerar dados com distribuição como por exemplo uma normal com média zero e variância igual 1 usando uma função inversa Para tanto usamos o termo q que representa que estamos construindo uma função quantílica ou seja a inversa da função de distribuição cumulativa O termo rnd é especificado para o parâmetro de probabilidade Esse tem que ser entre 0 e 1 Nesse caso ao colocarrnd construímos a curva normal a partir de diversos valores aleatórios para a probabilidade series tqnormrnd O comando q antes da especificação da curva também é útil para determinar o ponto da curva que é associado a uma determinada área Para o exemplo de uma curva normal padrão sabemos que o ponto 0 que representa a média dos dados divide a área em duas partes iguais 50 antes e 50 depois Se usarmos scalar aqnorm05 encontraremos o valor 0 ou seja o ponto a 0 representa 50 da curva acumulada Teste scalar aqnorm0025 que é uma área de 25 O resultado será 1959 ou seja o ponto no qual a área a esquerda de x representa 25 do total O que está dizendo esse comando Primeiro que a função utilizada qnorm irá retornar um valor Sendo assim especificamos a como um escalar exatamente porque irá receber um número Em segundo lugar o valor 05 representa uma probabilidade de 50 que será aplicada à função normal Nesse caso queremos saber qual é o valor na curva normal que irá resultar em uma área de 50 Essa área é especificada como toda a área a esquerda do valor Agora se estamos interessados em saber qual é o valor associado a uma curva normal padrão que irá determinar 95 da área como podemos proceder Usamos scalar a qnorm095 o que irá retornar o valor 1644854 A informação sobre a função inversa é similar ao que obtemos ao usar a função cumulativa Porém enquanto que na função inversa usando o comando q especificamos a área e obtemos o ponto com a função cumulativa a partir de c especificamos o ponto e obtemos a área Exercício 31 Encontre a área entre dois pontos de curva normal padrão que preencha entre 205 desvios padrão Exercício 32 Determine o formato de diferentes curvas normais variando apenas o desvio padrão Para uma média igual a zero use os seguintes valores para os desvios padrão curva 1 13 curva 2 21 curva 3 29 Nesse momento podemos inserir os conceitos de quantis Seja a curva normal padrão imagine que se queira dividir sua área em 4 partes iguais O que queremos obter aqui é o quantil de uma distribuição normal padrão Nesse caso quais seriam os respectivos pontos que permitem ter em 31 A Curva Normal 37 cada quantil 25 da área da curva normal Isso pode facilmente ser obtido usando o comando scalar quantil qnorm como valores 025 05 075 o que irá retornar os pontos 067 0 067 respectivamente Assim entre e 067 há 25 da área de uma curva normal padrão Entre 067 0 há 25 entre 0 067 outros 25 e entre 067 tem 25 Figura 35 Divisão dos quantis da distribuição normal Na estatística denominamos de tercis a divisão da área em 3 quantis de quintis a divisão em 5 quantis de decis a divisão em 10 quantis e de percentis a divisão em 100 quantis Há diversas aplicações para os conceitos de quantis sendo as mais comuns em análises de distribuição de renda e o uso da regressão quantílica Continuando com o nosso exemplo da distribuição normal podemos especificar um gráfico que irá representar essa distribuição Para tanto abra a série z a seguir em viewgraph selecione distribution e depois empirical CDF a b Figura 36 Distribuição Cumulativa com dados normais CDF Como apontado na introdução deste capítulo em estatística a distribuição cumulativa representa a probabilidade de se observar um valor de uma série de dados que não excede determinado valor específico Esse cálculo pode ser representado a partir de Fz Pz r 38 Capítulo 3 Funções de Distribuição onde Fz é a área da curva acumulada até o ponto r ou seja a estatística Fz representa a função cumulativa No exemplo da curva normal temos que 50 dos dados se encontram abaixo da média e 50 acima Como a média é zero para uma curva normal padrão então a probabilidade acumulada até o valor 0 é 50 ou então expresso de outra forma Fz Pz 0 05 Programação 316 Usando como exemplo a nossa curva normal com média 0 e variância unitária sabemos que o valor 0 divide ao meio a função de distribuição colocando 50 da área para cada lado da distribuição Nesse caso isso pode ser verificado a partir de um comando do EViews R que usa o valor para encontrar a área a partir de Scalar rcnorm0 Aqui primeiro criamos um scalar de nome r e que irá receber o valor da função A seguir o comando c usado antes da especificação da curva normal norm serve para determinar que estamos avaliando a função CDF cumulativa Por fim o valor 0 entre parênteses significa que queremos avaliar a probabilidade de um valor não exceder o valor 0 Isso irá retornar o valor 05 Ou seja o total da distribuição acumulada até o valor 0 é de 50 Também podemos determinar a probabilidade associada a um valor mínimo especificado Para tanto usamos a chamada empirical survivor Com a série de dados z aberta vá em viewgraph e depois selecione distribution e em details empirical survivor Note que o gráfico figura 37 representa exatamente o inverso do gráfico da distribuição cumulativa Sendo assim a probabilidade de que um valor seja maior que 5 por exemplo é quase 0 Por outro lado a probabilidade de que um valor seja maior que 0 que é a média dos dados é de 50 Expresso de outra forma como a área total da curva é 100 e a função cumulativa nos fornece a área até certo ponto podemos usar o comando abaixo para especificar a àrea à direita de um ponto Sz 1Fz Pz 5 0 Sz 1Fz Pz 0 05 Figura 37 Empirical Survivor Além de encontrar a área acumulada até um ponto ou acima de um determinado ponto é muito comum querermos saber qual é a área definida entre dois pontos Isso será útil para o entendimento de testes de hipóteses e construção de intervalos de confiança Por exemplo como podemos saber a área de uma curva normal entre z 1 e z 1 No box de programação 317 explicamos como encontrar essa área 31 A Curva Normal 39 Programação 317 Para conseguir determinar a área entre dois pontos da curva podemos combinar duas funções cumulativas Primeiro determinamos a área até o ponto maior e depois retiramos a área até o ponto menor Considerando uma curva normal padrão vamos avaliar a área entre 1 e 1 desviopadrão usando o comando a seguir scalar areacnorm1cnorm1 Esse irá retornar o valor de 0682 que é o mesmo que dizer que 682 dos dados estão entre 1 e 1 Além desse um intervalo muito utilizado é de z 2 e também 3 Esses podem ser encontrados apenas mudando o valor entre parênteses do comando acima No início desse tópico aprendemos a gerar uma série de números aleatórios usando o comando vector e dando o nome z para esse vetor Porém muitas vezes é útil que se tenha uma matriz de números aleatórios ou seja diversos vetores Isso pode ser gerado no EViews R de forma simples usando o comando m e ao invés de criar um scalar especificando matrix Programação 318 A seguir podemos criar uma matriz de números aleatórios que seguem uma distribuição normal usando os comandos mostrados abaixo Para uma matriz de 1000000 linhas e 30 colunas usamos matrix bmnrnd100000030 Até esse ponto ilustramos o uso da curva normal considerando que a média é zero e o desvio padrão 1 porém o mais comum em investigações estatísticas é que os dados possuem média diferente de 0 e desvio padrão diferente de 1 Não se preocupe se seu banco de dados não possuir essa característica isso é fácil de ser contornado a partir da padronização dos dados Nesse caso transformamos a distribuição de nossos dados que podem ter qualquer média e desvio padrão em uma distribuição que tenha média0 e desvio padrão1 Isso é feito facilmente a partir de z x x σ Onde z é o novo valor x é o valor da série original x é a média dos dados e σ é o desvio padrão dos dados Isso pode ser feito no EViews R especificando um comando Programação 319 Suponha que tenhamos um conjunto de dados com média 35 e variância de 35 Podemos gerar esses dados utilizando Series n35sqrt35nrnd Podemos transformar essa distribuição em média 0 e desvio padrão 1 usando o seguinte comando series yxmeanxstdevx Para o nosso exemplo onde a série n tem média 35 e desviopadrão de sqrt35 fazemos Series n1n35sqrt35 Agora que aprendemos os comandos que especificam a densidade a função cumulativa e a inversa de uma curva normal podemos explorar um pouco o comportamento de outras funções que são muito úteis em econometria e testes estatísticos 32 A curva tstudent A função de distribuição mais utilizada em testes de hipótese é a tstudent criada por William Sealy Gosset que acabou adotando o nome de student para representar a função É uma distribuição simétrica como a curva normal mas possui caldas mais largas o que a torna mais útil para representar distribuição de dados com valores extremos como é comum não conhecermos a variância da população que estamos analisando não podemos usar a curva normal E é aqui que a curva tstudent se torna interessante e útil Um parâmetro importante na curva tstudent é o vgraus de liberdade Quanto maior for seu valor mais a curva tstudent irá se aproximar da curva normal Mas o que significa os graus de liberdade Suponha que temos um teste de laboratório a ser feito e coletamos uma amostra de 80 informações Nesse caso temos que vn1 ou seja v79 graus de liberdade Por isso que dizemos que quanto maior for o número de graus de liberdade da distribuição tstudent mais ela se aproxima da curva normal Ou seja quanto maior for a amostra n maior será o valor de v Na Figura 38 estão simuladas uma curva normal e várias curvas tstudent com diferentes graus de liberdade com v2 v5 e v10 Note que na medida em que esse parâmetro aumenta a curva tstudent vai se tornando mais próxima da curva normal tornando a diferença entre elas quase imperceptível Suponha que temos uma série de dados Z com distribuição normal padrão e um outro conjunto de dados Q20 com distribuição qquadrado com 20 graus de liberdade veremos essa curva mais a frente Além disso suponha que Z e Q são séries de dados independentes Se dividirmos uma série pela outra teremos um conjunto de dados resultante com uma distribuição tstudent com 20 graus de liberdade Na fórmula abaixo o parâmetro v representa os graus de liberdade tv z Qv v Para montar isso vamos especificar zrnorm e q qchisqrnd20 a seguir use o comando series zq zsqrtq20 e compare com uma curva encontrada a partir de series t rtdist20 Programação 321 Para criar uma variável aleatória que tenha distribuição tstudent usamos o comando abaixo Note que há um parâmetro adicional a ser especificado v que representa os 32 A curva tstudent 41 graus de liberdade da curva tstudent series zrtdistv Tal qual na curva normal também podemos usar aqui o comando que especifica uma distribuição inversa para gerar uma sequência de números aleatórios Além de ser útil para gerar uma curva qualquer o comando q é útil para determinar o ponto da curva que é associado a uma determinada área Para o exemplo de uma distribuição tstudent a média dos dados divide a área em duas partes iguais 50 antes e 50 depois Se usarmos o termo scalar aqtdist0550 encontraremos o valor 0 Note que aqui não faz diferença os graus de liberdade a média sempre irá dividir a área ao meio Teste scalar aqtdist002550 que é uma área de 25 O resultado será 2008 ou seja o ponto no qual a área a esquerda representa 25 do total para uma curva tstudent com 50 graus de liberdade Esse resultado para uma curva normal seria 1959 comprovando que a curva tstudent é útil para representar dados com valores extremos Programação 322 Para gerar uma distribuição de dadoststudent também podemos recorrer a função inversa usando o termo q a inversa da função de distribuição cumulativa Como esse comando usa uma área para determinar os pontos ao usar o comando rnd teremos valores entre 0 e 1 exatamente o que precisamos para especificar as áreas da distribuição Aqui usamos um exemplo com 50 graus de liberdade series tqtdistrnd50 Lembrese que sempre que quiser encontrar um ponto que esteja associado a uma área da curva tstudent usamos o comando q Análogo a esse comando temos a distribuição cumulativa que representa a probabilidade de se observar um valor de uma série de dados que não excede determinado valor específico Tal como fizemos na curva normal esse cálculo pode ser representado a partir de Fz Pz r onde Fz é a área da curva acumulada até o ponto z Na curva tstudent temos que 50 dos dados se encontram abaixo da média e 50 acima Com a média zero então a probabilidade acumulada até o valor 0 é 50 ou então expresso de outra forma Fz Pz 0 05 Programação 323 Para encontrar a área acumulada até um determinado ponto na curva t student podemos usar o comando c Nesse caso não se esqueça de também fornecer os graus de liberdade Para uma curva t50 usamos Scalar zctdist050 O resultado aqui será 05 mostrando que toda a área da curva acumulada até o ponto 0 é de 50 Note que isso independe de colocarmos o valor dos graus de liberdade em 100 ou 200 Isso porque estamos avaliando a curva em seu ponto médio Agora se avaliarmos a curva em outro ponto os graus de liberdade produzirão resultados diferentes Note que a informação sobre a função inversa dado por q é similar ao que obtemos ao usar a função cumulativa Porém enquanto que na função inversa usando o comandoq e especificamos Programação 324 Para avaliar a função de densidade de uma curva tstudent usamos scalar rtdistxv Aqui o comando scalar cria a caixa de nome r para receber o valor da distribuição A seguir especificamos d para determinar que queremos a função de densidade seguido do nome da distribuição tdist Por fim escolhemos o valor do ponto na distribuição x e os graus de liberdade em v Programação 325 Para encontrar a área entre dois pontos na curva tstudent combinamos duas funções cumulativas Suponha que se queira avaliar entre 1 e 1 Scalar areactdist150ctdist150 O resultado será 6778 o que é menor que os 682 da curva normal Agora vejamos no extremo da curva quando consideramos entre 3 e 3 O resultado para a tstudent será 9957 enquanto que para a curva normal será de 9973 Exercicio 33 Encontre a área entre dois pontos 250 e 250 para uma curva tstudent com 50 graus de liberdade Exercicio 34 Encontre a área entre 3 e 3 para diferentes curvas tstudent usando Curva 1 15 graus de liberdade Curva 2 30 graus de liberdade Curva 3 60 graus de liberdade 33 A Curva QuiQuadrado A curva quiquadrado χ2v possui um formato diferente da normal Enquanto aquela tinha uma distribuição bicaudal essa é unicaudal Isso é interessante pois vários testes a serem feitos posteriormente irão considerar esse tipo de análise 4 além de ser útil em diversas outras aplicações principalmente em finanças 5 A sua função densidade é dada por fz12v2Γv2 xv21ex2 Onde v ℕ são os graus de liberdade x é uma variável aleatória no intervalo 0 e Γ é uma função Gamma 6 Assim podemos construir a curva a partir da definição do valor de v e de 33 A Curva QuiQuadrado 43 posse da variável aleatória x encontrar seus diversos resultados Por exemplo para uma função com 2 graus de liberdade v 2 teremos fz e x 2 2Γ1 Um ponto a destacar aqui é que quanto maior forem os graus de liberdade da quiquadrado mais sua distribuição vai se aproximando da normal No caso do uso do teste quiquadrado também há uma particularidade a considerar De uma forma geral esse teste é utilizado para identificar a existência ou não de diferenças em variáveis categóricas como por exemplo religião sexo raça grupos de idade ocorrência de evento e etc Seu uso pode se dar para dois tipos de situações i para comparar se o valor observado é diferente do valor esperado ou então se uma distribuição observada é diferente de uma esperada fazendo comparação de frequências ii identificar se duas variáveis aleatórias são independentes usando tabelas de contingências Em ambas a aplicação poderá ver que o teste não usará as estatísticas de média e desvio padrão ou seja é um teste não paramétrico Nesse caso o que iremos fazer é comparar proporções Como regra ao definir as hipóteses a serem testadas seguimos que a hipótese nula é aquela onde as frequências observadas não são diferentes das frequências esperadas e por consequência a hipótese alternativa é onde as frequências são diferentes Exemplo 31 Suponha que a razão de peso entre os estudantes homens e mulheres na universidade seja de 21 ou seja os homens tem o dobro do peso das mulheres Porém essa relação tem sido de 11 em turmas de um curso específico por vários semestres Essa relação seria estatisticamente diferente da esperada O teste quiquadrado é útil nesse caso Como forma de ilustrar como o teste quiquadrado é utilizado vamos usar um exemplo simples que é descobrir se uma moeda é honesta Esse teste também pode ser chamado de teste de Goodness of fit Nesse caso o nosso resultado esperado é que em 50 das vezes se tenha cara e 50 coroa Agora vamos ao experimento lançando uma moeda 200 vezes e anotando os resultados Suponha que em 108 vezes se observe cara e 92 vezes coroa Esse resultado estaria dentro do esperado O primeiro passo aqui é determinar a hipótese nula que para nós é ter uma distribuição igual entre cara e coroa ou seja em 200 tentativas esperamos que 100 dessas seja cara A seguir podemos montar a seguinte tabela pra encontrar o valor da estatística quiquadrado Cara Coroa Total Observado 108 92 200 Esperado 100 100 200 Diferença OE 8 8 0 OE2 64 64 128 χ2 OE2E 064 064 128 Tabela 31 Testando se uma moeda é honesta 44 Capítulo 3 Funções de Distribuição Figura 39 Como pode ser visto temos duas categorias cara e coroa Nesse caso a estatística qui quadrado é dada pela soma da diferença das duas possibilidades em relação ao valor esperado ou seja χ2 128 O passo seguinte é determinar a probabilidade associada a esse valor Mas antes de fazer isso vamos entender como é a distribuição quiquadrado No EViews R essa função de distribuição é encontrada a partir do comando chisq Com o arquivo de antes aberto vamos gerar uma distribuição aleatória com 1000000 de dados usando o comando qchisq Um ponto importante a destacar é que o teste χ2 só pode ser aplicado a números não sendo aplicável a proporções percentuais médias e etc Programação 331 A curva quiquadrado tem um formato diferente Usando o mesmo arquivo de antes com 1000000 de dados vamos construir uma curva quiquadrado com 1 grau de liberdade a partir do comando q que fornece a inversa da curva rndseed 2 series qqchisqrnd1 Aqui o termo rnd é utilizado para gerar números aleatórios entre 0 e 1 e nesse caso representa diferentes valores para a probabilidade Note que a probabilidade deve ficar entre 0 e 1 Um exercício interessante é identificar o valor que representa determinado percentual de uma área Por exemplo determine o valor que representa 96 de uma amostra com distribuição qui quadrado e 10 graus de liberdadeχ2 10 Para encontrar esse valor denomine o mesmo de x e podemos usar o comando scalar xqchisq09610 que irá retornar x1902074 Sendo assim para os parâmetros especificados devemos esperar observar valores maiores que 1902 em apenas 4 das vezes Após gerar os números aleatórios que irão seguir uma distribuição quiquadrado faça um gráfico combinando um histograma e uma densidade de kernel Para tanto abra a série q vá em viewgraph selecione distribution e depois do lado esquerdo após escolher histogram vá em options e escolha kernel density conforme a Figura 39 Note na Figura 310 que essa distribuição é unicaudal Como forma de mostrar as mudanças na curva de acordo com os graus de liberdade estimamos mais duas curvas quiquadrado uma com 2 graus de liberdade e outra com 5 33 A Curva QuiQuadrado 45 a 1 grau de liberdade b Diferentes graus de liberdade Figura 310 Curva ChiQuadrado Agora que conhecemos como é a distribuição quiquadrado podemos retornar ao nosso exemplo das moedas e descobrir a probabilidade associada ao nosso teste Pelos cálculos obtemos χ2 128 Esse é o valor que tem que ser colocado na curva para avaliar a probabilidade associada Assim o total da curva entre 0 e 128 pode ser encontrado fazendo uso da opção de distribuição cumulativa CDF até o ponto 128 Programação 332 Para encontrar a área da curva entre o valor 0 e um ponto especificado podemos usar o comando cchisq Para o nosso exemplo temos o valor de 128 com 1 grau de liberdade Sendo assim usamos scalar qqcchisq1281 Fazendo isso encontramos o valor de 07421 que representa 7421 da curva entre 0 e 128 Ou seja há uma probabilidade de 74 de nossa moeda ser viciada O famoso pvalor associado a esse teste que irá determinar se aceitamos ou rejeitamos a hipótese nula é obtido a partir de 1 07421 02579 Ou seja pvalor 025 e dependendo do nosso critério de significância podemos aceitar ou rejeitar a hipótese nula Com um critério de 005 ou 5 então aceitamos a hipótese nula Recordese que a nossa hipótese nula é de que o valor observado fosse igual ao esperado ou seja que a moeda era honesta Portanto podemos aceitar essa hipótese Aqui deve surgir a dúvida porque 1 grau de liberdade No nosso exemplo estamos trabalhando com duas classes cara e coroa Nesse teste sempre subtraímos o valor do total de classes de 1 portanto n1 21 e nesse caso temos 1 grau de liberdade Exemplo 32 Vejamos outra aplicação de um teste quiquadrado do tipo Goodness of fit onde comparamos frequências Nesse caso vamos ver se um dado é honesto Como se sabe há a possibilidade de sair seis diferentes números e nesse caso a expectativa é que cada um tenha uma probabilidade igual Ou seja a probabilidade de sair o número 1 é de 16 a mesma para sair o número 4 e assim por diante Definimos as nossas hipóteses de teste como H0 o dado é honesto as proporções são iguais H1 o dado não é honesto as proporções são diferentes Agora vamos lançar um dado 120 vezes e anotar os resultados observados junto com o esperado em uma tabela como mostrado abaixo Note que o resultado para alguns números supera em muito o valor que se esperava Um indício de que o dado pode ser viciado Para verificar isso podemos usar o teste quiquadrado comparando o valor observado com o esperado a partir da fórmula 46 Capítulo 3 Funções de Distribuição Resultado Esperado OE2 E 1 30 20 5 2 12 20 32 3 27 20 245 4 18 20 020 5 17 20 045 6 16 20 080 Total 120 120 1210 Tabela 32 Testando se um dado é honesto χ2 OE2 E que é aplicada para cada um dos resultados Ao final somamos todos os seis Essa é a estatística quiquadrado Para o nosso exemplo χ2 121 Para testar se esse valor corresponde ou não a aceitar ou rejeitar a hipótese nula precisamos ter o número de graus de liberdade Temos um procedimento com seis termos que foram utilizados para calcular a estatística ou seja nosso número de linhas Sabemos que o número de graus de liberdade desse tipo de teste é dado por esse valor menos 1 No de linhas1 Sendo assim nosso experimento tem 5 graus de liberdade χ2 5 1210 A seguir devemos encontrar o pvalor Esse pode ser dado no EViews R usando o comando scalar qq1cchisq1215 e que retorna como resultado 00334 ou então 334 Com esse resultado não é possível aceitar a hipótese nula caso o nível de significância seja de 5 O que nos leva a crer que existe uma chance pequena do dado ser honesto Por outro lado se o nosso nível de significância for de 1 para o teste então pelo resultado do pvalor0034 aceitamos a hipótese nula de que o dado é honesto Vimos acima duas aplicações do teste quiquadrado para o que se conhece como Goodness of fit Esses testes são aplicados quando temos uma situação onde é possível determinar um valor esperado ou seja a nossa hipótese é baseada em uma teoria Outra possibilidade de aplicação desse teste é para exercícios do tipo teste de independência ou então como é conhecido via tabela de contingência Nesse caso queremos ver se duas variáveis são independentes e para tanto também fazemos uso do valor esperado Mas nesse tipo de teste não conhecemos o valor esperado e para tanto devemos construir o mesmo utilizando os dados observados Como regra de formulação das hipóteses a serem testadas definimos como hipótese nula o fato de que não há associação entre os grupos ou distribuições que estão sendo testadas ou seja as variáveis são independentes Dessa forma na hipótese alternativa teremos que as variáveis são dependentes ou seja há relação entre elas Vejamos um exemplo de teste de independência usando a função de distribuição quiquadrado Exemplo 33 Teste de Independência Considere que se tenha um experimento e que se queira verificar se há relação de dependência do resultado encontrado entre as diferentes categorias Nesse caso suponha que em determinado ano tenhase verificado a incidência de três diferentes tipos de pragas onde praga é uma variável em várias fazendas distribuídas em três estados onde estado também é uma variável Podemos afirmar que existe uma relação entre uma determinada praga e a localização da fazenda Ou seja é possível afirmar que quando há um problema em uma região podemos esperar que o mesmo irá ocorrer em outra região Nesse caso queremos ver se 33 A Curva QuiQuadrado 47 Estado 1 Estado 2 Estado 3 Total Praga 1 54 45 87 186 Praga 2 6 76 89 171 Praga 3 87 34 32 153 Total 147 155 208 510 Tabela 33 Incidência de praga em fazendas em três estados Tipo 1 Tipo 2 Tipo 3 Total Categoria 1 a b c abc Categoria 2 d e f def Categoria 3 g h i ghi Total adg beh cfi N Tabela 34 Tabela de Contingência existe uma relação entre duas variáveis praga e estado Como primeiro passo formulamos a hipótese nula e alternativa H0 Não há relação entre região e diferentes tipos de praga variáveis são independentes H1 Há relação entre região e diferentes tipos de praga variáveis são dependentes Como dito acima a hipótese nula se refere ao caso de independência entre as duas variáveis A seguir fomos literalmente a campo e pesquisamos nas três regiões as fazendas que apresentaram cada uma dessas pragas No total foram 510 fazendas que apresentaram problemas e que foram distribuídas de acordo com a tabela Note que temos os resultados observados e não temos os valores esperados Dessa forma precisamos determinar qual é o valor esperado para esse tipo de teste Como regra geral para um teste de independência podemos determinar os valores esperados para cada uma das células usando uma formula específica No caso de uma matriz 3x3 no geral temos Dessa forma para encontrar o valor esperado da célula i devemos usar ghic f i N Onde N é dado por abcd e f ghi Usando esse procedimento podemos produzir a matriz de valores esperados dos nossos resultados Depois de encontrar esses valores esperados o procedimento seguinte é encontrar a estatística quiquadrado que irá seguir exatamente os passos dados anteriormente quando do cálculo da moeda honesta Primeiro encontrase a diferença entre cada valor observado e o esperado A seguir elevase ao quadrado e divide pelo valor esperado da célula para ao final somar todos os resultados Esse último valor é a estatística quiquadrado Esses resultados são mostrados na tabela a seguir Estado 1 Estado 2 Estado 3 Praga 1 5361 5652 7585 Praga 2 4928 5197 6974 Praga 3 4410 4650 6240 Tabela 35 Valores observados 48 Capítulo 3 Funções de Distribuição Estado 1 Estado 2 Estado 3 Total Praga 1 00028 235 163 399 Praga 2 3801 1111 531 5444 Praga 3 4173 336 1481 5990 Total 1682 1682 2176 11834 Tabela 36 Estatística QuiQuadrado Vitória Não ganhou total Casa 103 76 179 Fora 42 137 179 Total 145 213 358 Tabela 37 Resultados de jogos do Grêmio onde o resultado de cada célula é dado por OE2 E Observe que χ2 11834 Agora falta determinar o número de graus de liberdade A regra para testes do tipo tabela de contingência é usar No de colunas 1No de linhas 1 3131 4 O que irá nos gerar um total de 4 graus de liberdade Portanto o nosso teste envolve uma estatística da forma χ2 4 11834 Usando a mesma função de antes para encontrar o pvalor no EViews R ou seja scalar qq1cchisq118344 teremos pvalor0000 Para um critério de 5 podemos concluir pela rejeição de H0 Ou seja não é possível aceitar H0 e portanto podemos afirmar que existe uma relação entre os três diferentes estados e as pragas que foram observadas em determinado ano Exemplo 34 Muito se escuta falar que o fator jogar em casa costuma ser determinante para uma equipe de futebol no decorrer de um campeonato Para comprovar esse fato vamos testar essa hipótese para a equipe do Grêmio durante o campeonato brasileiro de 2003 a 2012 A tabela a seguir traz a divisão dos resultados separados entre jogos em casa e fora e resultados de vitória ou não vitória que pode tanto ser derrota quanto empate Tal como estruturado as nossas hipóteses são assim dadas H0 O fator joga em casa não faz diferença variáveis são independentes H1 Jogar em casa faz diferença variáveis são dependentes Como temos uma tabela 2x2 para encontrar o valor do teste quiquadrado não é necessário encontrar a diferença entre cada valor observado e esperado podemos usar de forma direta a fórmula χ2 1 ad bc2abcd abcdacbd Como temos uma tabela 2x2 há 1 grau de liberdade Dessa forma χ2 1 4313 Usamos o comando scalar qq1cchisq43131 para encontrar o pvalor no EViews R encontramos qq00000 Ou seja o pvalor é 000 Nesse caso podemos optar pela rejeição da hipótese nula se estivermos satisfeitos com um nível de significância de 5 ou até um nível de significância menor Sendo assim concluise que pelo menos para o campeonato brasileiro entre 2003 e 2012 para a equipe do Grêmio jogar em casa ou não foi determinante Apesar de termos comentado sobre o uso de tabelas de contingência com o número de linhas igual ao número de colunas é frequente termos tabelas de contingência que não são quadradas Suponha um número de linhas r e de colunas c De forma geral a fórmula para calcular a frequência esperada para cada célula é dada por E da lina r da lina cN onde N é o tamanho da amostra O último ponto de discussão sobre a aplicação do teste quiquadrado é sobre amostras e valores esperados pequenos Em algumas situações é comum nos depararmos com um experimento onde o número de resultados é menor do que 40 Nesse caso claramente teremos um problema no teste Além disso também podemos ter uma situação onde o valor esperado de um evento uma das células da tabela encontrada tem um resultado menor do que 5 Apesar de ser um problema mesmo assim podemos fazer o teste basta que se faça uma correção que na literatura de estatística é denominada de Correção de Yates E isso é simples Quando for calcular o valor esperado de cada uma das células ao invés de utilizar a fórmula χ2 O E2E Usamos a seguinte expressão χ2 OE052E 34 Curva F Outra função de distribuição muito útil é a F comumente conhecida como distribuição de Fisher ou distribuição de Snedecor onde seu uso mais comum é na análise de variância também conhecido como teste ANOVA A distribuição F é uma distribuição encontrada a partir da razão da variância de duas populações independentes Nesse caso como estamos com duas populações ou amostras temos dois graus de liberdade Por isso que a função F aparece sempre com Fv1v2 onde v1 são os graus de liberdade dados pelo número de amostras menos 1 e v2 é o número de tipos de medidas A função densidade de probabilidade de uma variável aleatória que tem distribuição F comv2 e v1 graus de liberdade é dada por Fx Γv1 v22 Γv12Γv22 v1v2v12 xv121 v1v2 x 1mn2 onde o valor de x é dado no intervalo x 0 ou seja assume valores positivos e Γ é uma função gamma De forma geral a curva F mede a razão entre duas distribuições quiquadrado que sejam independentes Dentre as suas principais propriedades temos que ela é assimétrica à direita ou seja seus valores sempre serão positivos Dentre seus principais usos podemos destacar o teste para identificar se duas amostras independentes foram geradas por uma população com distribuição normal com a mesma variância e também se duas amostras independentes possuem mesma variância Como hipótese principal tem o fato de que a distribuição da população no qual se está gerando a amostra é normal e que as duas populações são independentes Vejamos como podemos gerar 1000000 números aleatórios que descrevem uma distribuição F Nesse caso usamos no EViews o comando qfdist onde o termo q representa a distribuição inversa usada para gerar a curva procurada 50 Capítulo 3 Funções de Distribuição Programação 341 A curva F também é muito útil para testes em estatística e econometria Para simular essa curva no EViews R podemos usar os comandos a seguir rndseed 10 series fqfdistrnd1010 Para essa função temos 3 parâmetros a determinar dentro dos parênteses O primeiro é a probabilidade associada Como queremos 1000000 de números usamos o termo rnd que é utilizado para gerar números aleatórios entre 0 e 1 e nesse caso representa diferentes valores para a probabilidade A seguir temos o número de graus de liberdade do numerador e o número de graus de liberdade do denominador O mesmo gráfico pode ser gerado a partir de Series frfdist1010 Note que ao especificar valores pequenos para os graus de liberdade temos uma curva mais assimétrica conforme a figura 311a Na medida em que vamos aumentando os graus de liberdade a curva F vai tendo outro formato até que ao ter um número grande de graus de liberdade irá se aproximar da distribuição normal conforme a figura 311b a Curva F1010 b Curva F10000001000000 Figura 311 Curva ChiQuadrado Da mesma forma que para as demais curvas aqui avaliadas para se encontrar a área abaixo da curva F podemos usar a função de distribuição cumulativa CDF Por exemplo para uma curva F5010 qual seria a área acumulada até o valor 2 Programação 342 Para encontrar a área da curva acumulada até determinado valor usamos a função abaixo scalar f4cfdistxv1v2 Onde x é o valor a determinar o ponto na curva v1 são os graus de liberdade do numerador e v2 os graus de liberdade do denominador Para o nosso exemplo usamos series f4cfdist25010 35 Distribuição de Poisson 51 Que irá resultar em 08818 ou seja 8818 da área 35 Distribuição de Poisson Se estamos diante da possibilidade de ocorrência de um número muito grande de eventos e que a probabilidade de ocorrência de um desses eventos seja bem pequena então podemos usar a distribuição de Poisson Seria como tentar medir a possibilidade de ocorrência de um evento raro como um atropelamento em uma determinada rua de baixo movimento o nascimento de quadrigêmeos dentre outros A distribuição de Poisson é uma distribuição de probabilidade discreta Para medir essa chance de ocorrência de um evento fazemos uso de três parâmetros O primeiro que se refere ao espaço de medida pode tanto ser hora minuto segundo dias espaço área volume peso ou qualquer outro campo contínuo Na fórmula da distribuição é a variável t Esse sempre vem acompanhado do parâmetro λ que é utilizado para medir a frequência de ocorrência do evento O último parâmetro x é utilizado para definir a possibilidade do número de ocorrências A fórmula do teste de Poisson é dada por Px eλtλtx x 35 Imagine que se queira medir a probabilidade de que uma pessoa entre no restaurante a qualquer momento Sabemos que o fluxo de clientes é medido por hora e que esse é de 3 por hora Sendo assim t 1 hora e λ 3 Qual seria a probabilidade de não chegar nenhum cliente em 1 hora P0 e330 0 0049 Assim a probabilidade de que em 1 hora não chegue nenhum cliente é de 49 Outra pergunta interessante seria se ao invés de querer saber o número exato trabalharmos com um valor mínimo Sendo assim qual é a probabilidade de que chegue pelo menos um cliente Nesse caso podemos estimar via diferença de não chegar nenhum com o total da curva O total é de 100 e então P 1 1P0 10049 09502 Ou seja a probabilidade de que chegue pelo menos um cliente é de 9502 Programação 351 Para aplicar o teste de Poisson no EViews R podemos usar a fórmula da distribuição cumulativa CDF Nesse caso é necessário especificar dois parâmetros m e x Com m λt e x tal como definido anteriormente scalar pcpoissonxm Para o nosso exemplo acima usamos para medir a probabilidade de não chegar nenhum cliente scalar pcpoisson03 Exercício 35 Suponha que em uma esquina ocorram em média 4 acidentes por semana Encontre a probabilidade de que em qualquer semana ocorram 6 acidentes Depois qual é a probabilidade de ocorrência de pelo menos 2 acidentes por semana Dica na primeira pergunta x 6 λ 4 t 1 Na segunda pergunta P 2 1P1 x 1 λ 4 t 1 Vimos nesse capítulo as curvas de distribuição e aplicação de testes sejam esses paramétricos ou não paramétricos Nesse ponto é importante entender a diferença entre esses dois tipos de 52 Capítulo 3 Funções de Distribuição testes Quando fazemos uso de estatísticas dos dados da amostra e da distribuição dos mesmos em algum teste como por exemplo o teste t teste F dentre outros dizemos que o teste em questão é paramétrico Ou então denominados de testes clássicos Nesse tipo de teste assumimos que a distribuição dos dados é conhecida Porém há também os testes não paramétricos onde não é feita nenhuma hipótese sobre o tipo de distribuição de probabilidade dos dados que estamos usando Ou seja nesse tipo de teste dizemos que estamos livres de especificar o tipo de distribuição Portanto usamos os testes não paramétricos quando desconhecemos essa distribuição ou os dados não satisfazem às suposições que são assumidas pelas técnicas tradicionais 36 Exercícios Exercício 36 Sua namorada te liga em média 2 vezes por dia considerando 24 horas Qual é a probabilidade de ela não te ligar em 1 dia Qual a probabilidade dela te ligar pelo menos 1 vez por dia Exercício 37 Probabilidade Considerando uma curva normal padronizada encontre a proba bilidade de se ter um valor tal como a Pz 0 z 118 3010 b Pz 0 2 9772 c Pz 34 z 9996 d Pz 245 z 071 Exercício 38 Probabilidade Supondo que a renda da população do Brasil r é de R 6200 por mês com um desvio padrão de R 954 Imagine que a distribuição dessa renda seja normal Responda aos itens a seguir Dica note que não temos uma distribuição normal padrão Padronize os dados primeiro usando z r r σ a Pr 3200 Pz rr σ 008 b Pr 9000 016 c P3560 r 6340 5555 Exercício 39 Considerando uma tstudent encontre a probabilidade de se ter um valor tal como a use 20 graus de liberdade Pz 0 z 118 3740 b use 30 graus de liberdade Pz 0 z 118 3763 c use 300 graus de liberdade Pz 0 z 118 3805 d use 20 graus de liberdade Pz z 2 9703 e use 30 graus de liberdade Pz z 2 9726 f use 20 graus de liberdade Pz 34 z 9985 g use 30 graus de liberdade Pz 34 z 9990 h use 20 graus de liberdade Pz 245 z 011 i use 30 graus de liberdade Pz 245 z 010 36 Exercícios 53 Exercício 310 Teste de independência Em uma pesquisa foram entrevistados 340 alunos de uma escola Os entrevistados separados por faixa de idade deveriam apontar a preferência por uma cor Sendo assim estamos interessados em testar se existe uma relação entre idade e preferência por cor Use como critério de significância 5 Escolha a hipótese nula H0 Encontre a estatística quiquadrado χ2 Encontre o pvalor Conclua Idade anos Branco Verde Preto Total 1012 35 76 65 176 1316 65 54 45 164 Total 100 130 110 340 Exercício 311 Teste de independência Nas eleições para prefeito de 2012 tivemos vários votos nulos e brancos Esses podem ser interpretados como uma forma de protesto Com dados das eleições de 2012 no 1o turno para prefeito em todo o Brasil separamos os mesmos entre capital e interior A pergunta é é possível afirmar que os eleitores das capitais estão mais revoltados do que os eleitores do interior Votou Branco Nulo Total Capital 22632144 2842987 25475131 Interior 80624103 9708280 90332383 Total 103256247 12551267 115807514 Exercício 312 Teste de independência Suponha que se queira testar se a faixa etária real mente faz diferença em relação a forma de dirigir Nesse caso com dados de jovens adultos e idosos separados entre números de acidentes e sem acidentes em um determinado ano teste se há relação entre idade e condução ao volante Acidente Sem acidente Total Jovens 25 45 70 Adultos 15 25 40 Idosos 10 30 40 Total 50 100 150 Exercício 313 Teste de independência Na tabela abaixo foram coletados dados sobre casa mentos no Brasil no ano de 2011 Naquele ano ocorreram pouco mais de 1 milhão de casamentos divididos no estado civil do homem e da mulher na data do casamento Por exemplo 818300 casamentos ocorreram entre homens e mulheres solteiros 54 Capítulo 3 Funções de Distribuição HomemMulher Solteira Viúva Divorciada Total Solteiro 8183 5876 50696 874872 Viúvo 8557 2925 5297 16779 Divorciado 88805 4806 38221 131832 Total 915662 13607 94214 1023483 37 Sites úteis wwwstatisticscom wwwportalactioncombr httpstatlectcom httpstatunipgitiasc 4 Estatísticas testes de hipótese e ANOVA Fazer uma avaliação prévia de como um conjunto de dados se comporta é um dos procedimentos mais comuns em estatística e econometria e deve ser feito antes de qualquer outra ação pois irá permitir ter informações importantes sobre os passos a serem dados posteriormente Nesse caso há diversas formas de se avaliar os dados e que depende de como os mesmos são compostos e que são classificados tanto em estatísticas descritivas como de inferência No primeiro caso há estatísticas que podem ser utilizadas para qualquer formato de conjunto de dados como por exemplo a média a moda e a mediana referidas como medidas de tendência central Por outro lado quantis variância e o desviopadrão por exemplo são classificadas como medidas de dispersão Como o nome diz no procedimento de estatística descritiva o que temos é apenas uma descrição do comportamento dos dados No geral os resultados gerados pela estatística descritiva aparecem no formato de gráficos ou de tabelas A inferência estatística envolve o conceito de amostragem O mais comum em estatística e econometria é termos um conjunto de dados que representa uma amostra da população uma vez que é muito difícil ter a informação da população Nesse caso estamos assumindo que a nossa amostra possa representar de maneira fiel o comportamento da população Porém nem sempre isso é verdade o que acaba por resultar em erros de medida Nesse caso trabalhamos com diversos parâmetros como média desvio padrão e etc mas os mesmos são estimados e são feitos testes de hipótese para confirmar a consistência dos mesmos Em resumo essa é a ideia da inferência estatística Portanto enquanto que na estatística descritiva estamos apenas preocupados com a descrição dos dados na inferência estatística estamos preocupados com a consistência dos mesmos Como exemplo vamos usar a série z gerada na seção 31 Recordese que a mesma foi gerada para ter uma distribuição normal com média zero e variância unitária A seguir vá em viewdescriptive statistics tests e poderá ver que há diversas opções para se aplicar às séries de dados conforme Figura 41 A seguir mostraremos como interpretar cada uma dessas 56 Capítulo 4 Estatísticas testes de hipótese e ANOVA Figura 41 Testes e estatística descritiva 41 Histograma e Estatísticas Selecionando a alternativa de Histogram and Stats o EViews R irá retornar um resumo do que podemos entender como estatística descritiva conforme Figura 43 Para o exemplo da série z podemos ver que os dados são bem distribuídos em torno da média como mostra o gráfico à esquerda que é conhecido como histograma A seguir do lado direito há diferentes estatísticas que são reportadas As duas primeiras são medidas de tendência central como a média que tal como esperado é próxima de zero E a seguir está a mediana que representa o ponto onde a função de distribuição é dividida exatamente ao meio Para o nosso exemplo ela também é próxima de zero Essa é uma característica de um conjunto de dados que tem uma distribuição normal padrão onde a média é zero Depois são reportados o valor máximo e o valor mínimo do nosso conjunto de dados Note que ambos são muito próximos Isso ocorre pois geramos uma função com distribuição normal e nesse caso os valores extremos tanto para a esquerda quanto para a direita conhecidos como caudas devem ser próximos em módulo Se por exemplo o valor máximo fosse bem diferente em módulo do valor mínimo teríamos uma assimetria A seguir está o desviopadrão que tal como especificado esperavase ter um valor unitário Por fim duas outras estatísticas são importantes para avaliar os nossos dados a assimetria e a curtose1 Ambas são estatísticas derivadas a partir da média e do desviopadrão e úteis para caracterizar o tipo de distribuição dos dados Programação 411 Podemos fazer todas essas estatísticas descritivas utilizando os comandos de programação do EViews R Abaixo vamos utilizar o scalar para apresentar a funções típicas para obter as estatística descritivas de uma série x scalar m meanx scalar md medianx scalar mx maxx scalar min minx scalar std stdevx scalar assimetria skewx scalar curt kurtx Como vimos acima o valor máximo e mínimo dos dados são muito próximos em módulo o que acaba não gerando caudas para a nossa distribuição Sendo assim podemos esperar que os nossos 1Skewness e Kurtosis Figura 42 Assimetria à direita e assimetria à esquerda dados tivessem uma distribuição simétrica tal como sinalizado por exemplo pela igualdade entre a média e a mediana Valores negativos para a assimetria indicam uma distribuição assimétrica para a esquerda enquanto um valor positivo indica assimetria a direita Os gráficos da Figura 42 mostra como se comporta a assimetria à direita e à esquerda Para comprovar isso calculamos a assimetria no EViews com a seguinte fórmula S 1N yi ȳσ 3 onde N é o número de observações que no nosso caso é 1 milhão yi é cada uma das i observações ȳ é a média dessas observações e σ é o desviopadrão amostral Para o nosso exemplo a assimetria é muito próxima do valor zero o que é esperado para uma curva com distribuição normal Podemos facilmente mostrar como que apenas alguns valores extremos contribuem para gerar assimetria no banco de dados Vá em View e depois SpreadSheet Com a série aberta mude os cinco primeiros valores para números elevados como 6 7 e 8 Para tanto clique em Edit na barra superior Refaça o histograma e poderá ver como os dados apresentam assimetria à direita Se repetir esse exemplo colocando elevados valores negativos poderá ver que o histograma apresentará assimetria à esquerda A curtose por outro lado é uma medida relacionada à concentração dos dados influenciando no desenho da curva verticalmente Um conjunto de dados com um valor alto para a curtose concentra os dados na média diminuindo bastante rapidamente quando se afasta da média Por outro lado dados com curtose baixa tendem a ser mais planos com os dados mais distribuídos Distribuições com curtose alta podem ser chamados de leptocúrticos como os retornos das ações na bolsa de valores enquanto distribuições com curtose mais baixa podem ser denominadas platicúrticas Para o nosso exemplo observamos na Figura 43 uma curtose com valor 30008 um valor muito próximo ao que se espera de uma curva normal que é 3 O cálculo da curtose pode ser feito a partir de Z 1N yi ȳσ 4 note que também para esse cálculo usamos apenas as estatísticas de média e desviopadrão As duas últimas informações estão relacionadas a um teste de função de distribuição Até então fizemos uma avaliação na forma de estatística descritiva Porém somente a assimetria e curtose não são suficientes para confirmar que os dados possuem ou não uma distribuição normal Há diversas formas para testar a possibilidade de um conjunto de dados terem uma distribuição normal ou não Além disso há testes que são aplicados para conjunto de dados multivariados e também podemos testar outras distribuições Nesse resumo de estatística descritiva o EViews retorna o resultado Figura 43 Histograma e Estatísticas de uma série Z para o teste de normalidade de JarqueBera Esse valor é encontrado usando a fórmula JB N6 S² k3²4 onde N é o número de observações S é o valor da assimetria e k a curtose Substituindo os valores que vimos acima encontraremos JB 10000006 00053² 30008 3²4 4799 Esse teste é aplicado sob a hipótese nula de existência de distribuição normal e a hipótese alternativa seria que os dados não são distribuídos normalmente Note que apenas estamos testando se a curva é normal não estamos testando uma função de distribuição alternativa Portanto podemos apenas concluir se os dados são distribuídos normalmente ou não Ou seja o teste não permite inferir se a distribuição é quiquadrado F ou qualquer outra função No capítulo sobre funções de distribuição aprendemos que a função quiquadrado é utilizada em testes para verificar diferenças de distribuição entre duas amostras No caso do teste de JarqueBera ocorre exatamente isso temos um teste que tem uma estatística que usa a função quiquadrado para testar a hipótese nula possuindo 2 graus de liberdade Sendo assim o mesmo é representado a partir de χ²2 Para o nosso exemplo temos que χ²2 47999 e usamos essa informação para encontrar o chamado pvalor que no EViews é o mesmo que probability É essa estatística que irá dizer se aceitamos ou rejeitamos a hipótese nula O número 47999 em uma distribuição χ²2 quiquadrado com 2 graus de liberdade produz pvalor00907 Isso pode ser encontrado no EViews a partir do comando scalar qq1cchisq479992 Sendo assim não é possível rejeitar a hipótese nula de distribuição normal As mesmas informações podem ser obtidas a partir da função viewdescriptive estatistics testsstats table por isso não há necessidade de comentar seu uso No box de programação mostramos como podemos montar um teste de JarqueBera usando os comandos que retornam o resultado para a assimetria e a curtose Programação 412 Para fazer o histograma com a estatística dos dados podemos usar o comando hist para a série x e aplicar o comando freeze para salvar um gráfico com o nome G1 42 Estatísticas por classificação Statistics by Classification 59 xhist freezeG1 xhist Se estivermos interessados em ver apenas o resultado do teste de normalidade de JarqueBera devemos construir o teste Nesse caso o primeiro passo é determinar um escalar e escolher um nome suponha jb e depois aplicar seu resultado na curva quiquadrado Scalar jbobsx6skewx2kurtx324 Scalar testejbchisqjb2 Na primeira parte construímos a estatística de JarqueBera usando os comandos obs para retornar o número de dados skew para encontrar a estatística de assimetria e kurt para determinar a curtose A seguir encontramos o pvalor a partir da distribuição quiquadrado com 2 graus de liberdade 42 Estatísticas por classificação Statistics by Classification Quando estamos trabalhando com dados que podem ser separados por diferentes categorias ou mesmo se quisermos compreender melhor um determinado subconjunto de dados dentro do conjunto maior ou então comparar diferentes conjuntos de dados podemos recorrer às estatísticas por classificação Com a série de dados aberta clique em view Descriptive Statistics Statistics by classifica tion Do lado esquerdo da janela ver Figura 44a selecione apenas o número de observações Depois escreva o nome de duas séries separadas por espaço Vamos usar para esse exemplo a série aleatória z com distribuição normal e a série t que tem distribuição tstudent com 50 graus de liberdade Na opção Group into bins if deixe marcado apenas para valores 100 e um número máximo de bins de 3 isso representa o número de classes de distribuição dos dados a seguir clique em ok A Figura 44b apresenta os resultados O EViews R mostra uma contagem dos dados dos dois grupos Na linha estão aqueles referentes a z com três intervalos e na coluna para a série t também com três intervalos A última linha e coluna são dos totais Note que é feita a contagem de dados considerando a intersecção entre os dois conjuntos de dados Por exemplo no intervalo 50 temos 249688 dados Porém se avaliarmos apenas a linha do intervalo 50 para z teremos um total de 499392 dados onde há informações tanto de z quanto de t nesse intervalo Por fim o total de dados reportados tem que ser igual ao total de cada série Do total de 1 milhão de dados há 499982 na série x que estão no intervalo 50 e outros 500011 que estão no intervalo 05 O mesmo tipo de análise pode ser feito para obter informações conjuntas sobre outras estatísticas como mediana desviopadrão e etc Vejamos como exemplo considerar o mesmo conjunto de dados e selecionar tanto a estatística de média Mean quanto a de assimetria skewness A tabela de resultado é como a tabela 45 Mantemos o número máximo de classes em três a última linha e a última coluna são os totais para cada subgrupo e o total de dados Por exemplo o valor 0001053 na última célula da tabela referese à média do conjunto de dados z e logo abaixo o valor 0005350 é a assimetria dos dados z Isso acontece pois pedimos essa estatística a partir da abertura do conjunto de dados z Se ao invés disso tivéssemos aberto o conjunto de dados t e feito a estatística por classificação essa última célula revelaria a média e assimetria para a série t No intervalo 50 de z com 50 de t a média é 079 e significa que os 249688 dados das duas amostras que caem meste intervalo possuem média 079 e uma assimetria de 1004 60 Capítulo 4 Estatísticas testes de hipótese e ANOVA a Opções de classificação b Classificação das observações Figura 44 Statistics by Classification Figura 45 Classificação por média e assimetria 43 Testes de Hipótese Essa é uma importante ferramenta estatística para testar hipóteses em séries de dados individuais ou em conjunto Vimos que a média da série de dados x é 0001053 e que seu desvio padrão é 1 Vamos testar a hipótese que a média é igual a 001 Vá em viewdescriptive statistics testssimple hypothesis tests e na caixa de diálogo que aparece Figura 46a especifique o valor da média a ser testado No nosso exemplo 001 Podemos deixar em branco a informação do desvio padrão que é pedida à direita em mean test assumption Assim na caixa que descreve mean digite o valor 001 E na parte Enter sd if known que corresponde ao desviopadrão da nossa série de dados não especifique nada A seguir clique em ok Para esse exemplo é possível ver como resultado apenas com a estatística t o teste de média que segue uma distribuição tstudent Destacase que esse é um teste bicaudal pois estamos a b Figura 46 Teste de Hipótese 44 Teste de Igualdade por Classificação 61 testando H0 média 001 H0 média 001 O resultado mostrado para o pvalor nos leva a rejeitar a hipótese nula de igualdade inclusive a menos de 1 de significância Ou seja a média de x é estatisticamente diferente de 001 O teste é realizado usando os valores amostrais para a média e o desvio padrão e a fórmula tstatistic x µ sn Substituindo os valores da Figura 46b teremos tstatistic 000043001 1000312 1000000 104265 Por fim o probability é dado usando prob ctdist104265 999999 Lembre que os graus de liberdade são dados por N 1 e que esse é um teste bicaudal Seguese o mesmo procedimento para testar a igualdade da variância ou da mediana Podemos refazer o teste especificando o desviopadrão Nesse caso são reportados dois resultados um para a estatística Z que segue uma distribuição normal e outro para uma estatística t com desvio padrão desconhecido Se esse teste for aplicado para identificar se a variância é igual a determinado valor a hipótese nula é de igualdade e usase a estatística χ2 N1 para o teste Sendo assim é aplicada a fórmula χ2 N 1s2 σ2 41 onde s2 é a variância amostral 44 Teste de Igualdade por Classificação Esse teste é muito utilizado no caso de dados categóricos e para verificar a relação entre subconjuntos de dados Por exemplo é possível testar se a renda média é a mesma para homens e mulheres Os testes assumem que as subamostras são independentes Indo em viewdescriptive statistics testsequality tests by classification será apresentada a caixa de dialogo 47a Existem as opções de realizar testes de igualdade entra a média a mediana e a variância das séries Em SeriesGroup for classify informase as categorizações de análise As opções disponíveis em Group into bins if são as mesmas descritas na seção 42 O teste de igualdade de média é um teste ANOVA2 A hipótese nula é que os subgrupos tem a mesma média e que dessa forma a variância entre as médias da amostra devem ser as mesmas que as variâncias entre quaisquer subgrupos Comparando a série z categorizada pela série t observamos pela Figura 47b que há uma alta probabilidade que z não difira entre os grupo definido por t pois tanto o teste ANOVA padrão quanto o teste de Welch apresentam probabilidade acima acima de 70 Ou seja não é possível rejeitar a hipótese nula de igualdade Caso o teste fosse categorizado por dois grupos digamos t e q seria apresentado apenas o teste ANOVA padrão Em ambos os casos o EViews R retorna uma tabela com a fonte da variância comparando resultados entre os grupos between groups e dentro dos grupos within groups O resultado do teste é via 2O teste ANOVA também conhecido como análise de variância é uma técnica de teste de hipótese usada para testar a igualdade de duas ou mais médias amostrais de uma população também denominadas de tratamento Na seção 48 será abordado esse tema com mais detalhamento 62 Capítulo 4 Estatísticas testes de hipótese e ANOVA a b Figura 47 Teste de Igualdade distribuição FG1NG onde G é o número de grupos no exemplo G 2 e N é o número de observações Para o teste de igualdade de mediana o EViews R calcula vários testes com a hipótese nula de que os subgrupos têm a mesma distribuição geral contra a hipótese alternativa de que pelo menos um subgrupo tem uma distribuição diferente Caso sejam definidos dois subgrupos a hipótese nula é de que os dois subgrupos são amostras independentes da mesma distribuição Os testes de igualdade da variância avaliam a hipótese nula de que a variância em todos os subgrupos é igual enquanto a hipótese alternativa é de que pelo menos um dos subgrupos tem variância diferente Os principais testes oferecidos pelo EViews R para testar a igualdade da variância são teste F teste de Levene e o teste de BrownForsythe Ao utilizar o teste F para atestar diferença de variância entendemos que os grupos tem distribuição normal tornando os outros dois mais robustos 45 Teste de Distribuição Empírica KolmogorovSmirnov De posse de um conjunto de dados é muito comum não conhecermos como os mesmos são distribuídos Para tanto podemos aplicar um teste de distribuição para comprovar se possuem uma distribuição normal por exemplo como vimos no teste de JarqueBera ou então podemos estar interessados em saber se a distribuição de nossos dados é igual a alguma outra distribuição teórica Nesse caso há várias outras opções que podem ser verificadas no EViews R conhecidas como EDF test Por exemplo usando os dados do Capítulo 3 podese investigar se a distribuição da série de dados z pode ser aproximada por uma normal Nesse caso com a série z aberta clique em View Descriptive statistics tests Empirical distribution tests A seguir dentre as opções que existem vamos testar se a série de dados z tem uma distribuição normal Deixe a opção para escolha dos parâmetros vazia isso fará com que o EViews R estime os mesmos Note na figura 48b que há vários resultados de testes e que são mostrados em duas partes Na primeira estão diversos testes estatísticos para verificar a hipótese nula de igualdade entre a distribuição empírica e a teórica que nesse caso é a curva normal Assim temos o teste de Lilliefors Cramervon Mises Watson e AndersonDarling Na primeira coluna temos o valor do teste e na última o pvalor Pelo resultado do pvalor aceitamos a hipótese nula de distribuição normal em todos os quatro testes propostos Ou seja os dados em z possuem distribuição normal A segunda parte mostra os parâmetros estimados da nossa distribuição teórica A média3 MU é 0001053 e o desviopadrão4 SIGMA de 0998978 Note que esses dois resultados 3MU representa a letra grega µ 4SIGMA representa a letra grega σ 45 Teste de Distribuição Empírica KolmogorovSmirnov 63 a b Figura 48 Teste de Distribuição Empírica para a média e desviopadrão são iguais aos obtidos quando pedimos o Histogram Statistics Figura 43 A seguir em Prob temos o teste para identificar se esses valores são estatisticamente iguais a zero No primeiro caso o pvalor02918 sinaliza que o valor da média é estatisticamente igual a zero esse foi encontrado usando z 00010530 0000999 1054 Logo abaixo temos pvalor00000 que significa que o valor de SIGMA ou seja o desviopadrão é estatisticamente diferente de zero o que era esperado Lembrese que simulamos um conjunto de dados com desviopadrão igual a 1 Se tentar testar outras distribuições teóricas irá perceber que muitas não são possíveis pois temos valores negativos Agora faça o mesmo teste para identificar se a série de dados q simulada para ter uma distribuição quiquadrado possui uma distribuição normal O resultado é como mostrado na Figura 49a Note que agora rejeitamos fortemente a hipótese nula de igualdade da distribuição empírica e a teórica Nesse caso pela segunda tabela de resultados podemos ver que os parâmetros de média estimados para a distribuição teórica nesse caso a normal são média igual a 1000459 e desvio padrão igual a 1416870 Pelos resultados dos testes na primeira parte da tabela na Figura 49a rejeitamos a hipótese nula de distribuição normal dos dados De fato como a série q foi gerada de acordo com uma distribuição quiquadrado podemos testar essa distribuição Refazendo o teste EDF só que agora especificando como função teórica a curva quiquadrado deixe o EViews R estimar o número de graus de liberdade teremos um resultado diferente Nesse caso pelo pvalor todos 1 aceitamos a hipótese nula de igualdade das distribuições Mais abaixo na segunda tabela podemos ver a estimativa dos graus de liberdade5 NU 0999453 praticamente o mesmo utilizado para formar a série onde consideramos ν 1 Programação 451 Para fazer o teste de distribuição empírica no eviews via programação podemos usar o comando abaixo Nesse caso o default é testar se a série de dados em questão possui uma distribuição normal onde os parâmetros de média e desvio padrão são estimados xedftest Alternativamente podemos testar se a série q possui uma distribuição quiquadrado usando 5NU representa a letra grega ν 64 Capítulo 4 Estatísticas testes de hipótese e ANOVA qedftestdistchisq a b Figura 49 Teste de Distribuição Empírica 46 Teste de Igualdade Test of Equality É comum querer testar se dois grupos de dados sejam eles categóricos ou então séries de tempo possuem média ou variância iguais Para fazer isso noEViews R devemos primeiro criar um grupo Esse procedimento é conhecido como ANOVA e pode ser melhor entendido na Seção 48 47 Gráficos Analíticos Fazendo a distribuição dos dados Anteriormente no capítulo sobre gráficos aprendemos a fazer alguns tipos diferentes de gráficos misturando curvas teóricas com estimativas de kernel e histograma Porém naquele momento o resultado conhecido era apenas de um gráfico o que inviabilizava usar os dados gerados para outra análise Felizmente o EViews R permite salvar os resultados desses gráficos em uma matriz Assim o objetivo dessa função é poder salvar os resultados que são úteis para avaliar a distribuição dos dados criando os intervalos Vejamos um exemplo Abra a série de dados z e a seguir em Proc Make Distribution Plot Data Note que irá abrir a janela representada na Figura 410a Nesta há várias opções que podem ser testadas e customizadas sendo que as especificações do lado direito da tela mudam conforme a seleção com o tipo de dado selecionado no lado esquerdo da janela Para iniciar imagine que se queira salvar os dados que podem ser utilizados para construir o histograma da série z Nesse caso selecione a opção Histogram Mais abaixo escolha um nome para poder diferenciar das demais estimativas escolhemos como nome para essa matriz histogramaz e do lado direito vamos pedir que sejam salvos os dados de frequência A seguir clique em ok A matriz histogramaz que é salva contém três colunas conforme a Figura 410b As duas primeiras C1 e C2 são os diversos intervalos do histograma A última coluna a C3 é a quantidade de dados ou seja a frequência dos mesmos que aparece naquele intervalo Por exemplo entre 4 e 375 temos 54 dados As outras duas opções para dados de histograma Scaling na Figura 410a são densidade e frequência relativa Ainda na parte de Specification é possível ver a opção Bin Width Esse se refere ao tamanho do intervalo que será utilizado para gerar o histograma Nesse caso podemos escolher entre um default do EViews ou diversas outras opções Uma alternativa interessante para ver como é o formato da distribuição dos dados é via Den sidade de Kernel Para a série de dados z vá em Proc Make Distribution Plot Data e depois selecione Kernel Density Nas demais opções deixe em bandwidt selecionado EViews e 100 grids points Para esse exemplo o EViews R retorna duas colunas Na primeira é o intervalo 48 Teste de Razão de Variância 65 a b Figura 410 Matriz de Distribuição superior da classe e na segunda coluna sua respectiva densidade Faça o gráfico da coluna 2 C2 e verá que temos uma distribuição próxima da curva normal A última opção interessante é usar em Data Type a função de densidade teórica selecionando Theoretical Density Do lado esquerdo há diversas funções que podem ser selecionadas e que irão retornar os resultados para a estimativa de uma função Programação 471 Para obter os resultados de um histograma ou de uma função de densidade qualquer podemos usar alguns comandos específicos Para fazer um histograma da serie x e depois salvando o resultado com o nome de histogramax usamos xdistdatadtypehist histogramax Para fazer uma estimativa usando a densidade de kernel usamos xdistdatadtypekernel kernelx A opção Unit Root Test será vista quando estudarmos séries de tempo bem como o teste de razão de variância O BDS Independence Test será visto em regressão simples bem como o correlograma 48 Teste de Razão de Variância A análise de variância conhecida como ANOVA é uma técnica de teste de hipótese usada para testar a igualdade de duas ou mais médias amostrais de uma população também denominadas de tratamento Para tanto a análise é feita via variância amostral Com essa técnica é possível determinar se a diferença entre duas amostras é causada por um erro aleatório ou então é uma diferença estrutural Para o uso da análise de variância temos que assumir três hipóteses i todas as populações que estão sendo usadas devem seguir uma distribuição normal o que acaba por caracterizar o teste como sendo paramétrico6 ii todas as populações devem ter a mesma variância iii as amostras 6Isso não quer dizer que não possa ser feito uma análise de variância de forma nãoparamétrica 66 Capítulo 4 Estatísticas testes de hipótese e ANOVA devem ser selecionadas de forma aleatória ou seja devem ser independentes Ao fazer o teste temos que ter em mente que a hipótese nula assumida sempre será de que a média das amostras selecionadas é igual Além disso como estamos trabalhando com a razão de variância nos dados usamos a distribuição F para o teste Há basicamente quatro tipos de teste ANOVA O primeiro é o testeoneway between groups Esse é o teste ANOVA mais simples e o objetivo é testar se existe diferença entre os grupos O segundo é o oneway repeated usado para ver por exemplo diferenças em um experimento repetido ou então para ver mudanças ao longo do tempo Os dois testes seguintes são mais complexos o twoway between group e twoway repeated Nesses é feita uma investigação iterativa entre os diferentes grupos Vamos ver um exemplo simples para fixar o conceito e que se encontra no arquivo de nome distribuição na planilha ANOVA Suponha que uma empresa aplicou três diferentes métodos para a produção de um produto e para cada um desses métodos coletou os resultados encontrados de forma aleatória durante um mês Ou seja pro método 1 temos 10 informações de produtividade para o método 2 e 3 de forma similar completando um universo de 30 resultados Esses métodos são descritos como c1 c2 e c3 Figura 411 Dados da Planilha ANOVA O natural nessa avaliação é responder se a média de produção difere entre os três métodos Em uma avaliação prévia podemos ver que o método 1 tem uma média de produtividade de 544 ao passo que para o segundo método é 399 e o terceiro método 448 Para ver as estatísticas dos dados selecione as três séries clique com o botão direito abra como grupo A seguir vá em Stats na barra de ferramentas Mas será que essa média é estatisticamente diferente entre c1 c2 e c3 Qual é o melhor método e qual é o pior Ou reformulando a pergunta será que o método de produção utilizado influencia na produção Para responder a esses pontos vamos usar o método ANOVA Para tanto iremos fazer uso de três estatísticas que representam a variabilidade dos dados seja dentro do grupo ou entre grupos i SQT Soma ao quadrado total ii SQE Soma ao quadrado do erro iii SQG Soma ao quadrado dos grupos De uma forma geral uma tabela de teste ANOVA é apresentada da seguinte forma onde n representa o número total de dados m é o número de grupos 48 Teste de Razão de Variância 67 Origem da varia bilidade Soma dos qua drados Graus de liber dade Variância do qua drado médio Razão F Entre médias 1082 2 541 570 Dados dos grupos within groups 2562 27 095 Total 3644 29 Tabela 42 Resultados das estatísticas para análise da variância dos dados Origem da varia bilidade Soma dos quadra dos Graus de li berdade Variância do qua drado médio Razão F Entre médias SQG nm j1xj x2 m1 MSG SQG m1 Fratio MSG MSE Dados dos grupos within groups SQE n i1 m j1xij xj2 nm MSE SQE nm Total SQT SQE SQG n1 Tabela 41 Estatísticas para análise da variância dos dados Para encontrar a primeira estatística SQT devemos calcular a média de todos os 30 dados denominada média total x Para o nosso exemplo essa é 4643 A seguir encontrar o desvio de cada dado xj em relação a essa média elevar ao quadrado e somar É a medida de variabilidade total de todo o conjunto de dados Assim SQT3644 A segunda estatística SQE é uma medida de variabilidade que deve ser encontrada para cada grupo within group Nesse caso para o primeiro método temos a média dos 10 dados que o integram e encontramos o desvio de cada dado em relação a essa média elevamos ao quadrado e depois somamos Sendo assim para o nosso exemplo teremos três valores de SQE um para cada um dos métodos que estamos usando Para o método 1 temos um SQE de 857 para o método 2 um SQE de 849 e para o método 3 um SQE de 855 A seguir ao somar os três resultados encontramos que SQE2562 Por fim a terceira estatística SQG é uma medida de variabilidade entre os diferentes grupos between group e que também é referida como entre médias Nesse caso ela representa a soma do quadrado dos desvios da média de cada grupo em relação a média total Ou seja encontramos a variabilidade da média do grupo que representa o método 1 em relação a média total elevado ao quadrado Isso é feito para cada uma das informações Assim no nosso exemplo teremos um resultado que se repete por 10 vezes no grupo 1 Depois fazemos o mesmo para o método 2 e para o método 3 Sendo assim teremos 30 resultados para SQG Ao fim somamos todos e obtemos SQG1082 De forma geral essas três estatísticas são encontradas sempre que se vai fazer o teste ANOVA independente de quantos grupos se está trabalhando Outro ponto interessante é a relação que existe entre elas dada a partir de SQT SQE SQG SQT 25621082 3644 68 Capítulo 4 Estatísticas testes de hipótese e ANOVA Note que a variabilidade total pode ser dividida em duas partes uma SQE que representa as características de cada grupo ou seja representa a diferença dos grupos cada qual com seu tratamento e a segunda SQG as diferenças entre os grupos a partir de um tratamento comum que seria considerando a média global Portanto a origem da variabilidade total pode estar ligada a cada uma dessas duas causas No nosso exemplo cada grupo tem 10 dados Dessa forma não há problema em usar a medida de variabilidade Porém pode ocorrer de compararmos grupos que possuem uma quantidade diferente de dados Nesse caso o grupo com maior número de dados irá ter naturalmente um maior valor para a variabilidade Aqui é que entra um ponto importante no uso da ANOVA devemos computar os graus de liberdade Para o conjunto total de dados usamos n1 onde n é o número de dados Sendo assim com 30 dados os graus de liberdade de SQT é 29 No caso do SQE usamos nm onde n é o número de dados e m o número de grupos No nosso exemplo n330327 Sendo assim SQE within group tem 27 graus de liberdade Por fim para SQG temos a diferença entre os graus de liberdade de SQT e SQE ou seja SQG tem 2 graus de liberdade De posse dos valores referentes aos graus de liberdade podemos agora fazer a respectiva ponderação nas variabilidades chegando a uma medida mais próxima da variância Isso é feito simplesmente dividindo os valores pelos seus graus de liberdade Em livros de estatística essa medida é denominada de MS Mean Square Assim temos MST para representar a estatística SQT ponderada pelos graus de liberdade MSE0949 relativa a SQE e MSG5411 que se relaciona com SQG Por fim encontramos a estatística F que é dada por Fratio MSG MSE 5411 0949 570 Se essa razão for igual a 1 então a parcela de variação explicada entre os grupos e a explicada pelo respectivo grupo é igual ou seja as médias são iguais Porém podemos chegar a essa mesma conclusão para valores diferentes de 1 Lembrese isso é estatística e nesse caso podemos ter um resultado que seja estatisticamente significante Porque estamos usando a estatística F para esse teste Na discussão sobre funções de distri buições ilustramos que a distribuição F é dada a partir da razão de variâncias sob a hipótese nula Portanto a curva F irá ter todos os resultados possíveis para as razões de variância A seguir calculamos o Fratio e identificamos se seu valor pode ser considerado estatisticamente significante comparando o mesmo com a distribuição F No nosso exemplo temos uma distribuição F227 ou seja com 2 graus de liberdade no numerador e 27 no denominador Podemos encontrar seu desenho a partir de um conjunto de 1000000 de dados aleatórios para ver como seria essa distribuição Programação 481 Para encontrar a forma como os dados de uma distribuição F se compor tam com 1000000 de dados aleatórios 2 graus de liberdade no numerador e 27 no denominador podemos usar series f5 qfdistrnd 227 Para fazer essa estimativa não se esqueça de usar uma planilha que tenha uma dimensão de 1000000 de dados como a usada no exemplo distribuição Note na Figura 412 que como temos 27 graus de liberdade no denominador a curva tem sua área um pouco menos concentrada perto do valor zero O próximo passo seria determinar qual o 48 Teste de Razão de Variância 69 Figura 412 Curva F227 pvalor associado a estatística Fratio 57 que foi encontrada no nosso teste Para tanto podemos fazer uso da função cumulativa cfdist veja o box de programação 482 Esse irá produzir como resultado pvalor0008 que é a área da curva á direita do valor F57 Sendo assim podemos concluir que os três métodos apresentam diferença no resultado final ou seja rejeitamos a hipótese nula a 08 Programação 482 Para encontrar o pvalor associado ao valor do teste F devemos ter em mente que a função cumulativa fornece a área até determinado valor Sendo assim devemos subtrair de 1 a partir de scalar f1cfdist570 227 Esse procedimento pode ser facilmente feito no EViews R sem a necessidade de todos esses cálculos Na planilha de nome ANOVA temos as nossas três séries de dados referentes aos nossos três métodos Como primeiro passo crie um grupo com essas três séries A seguir vá em View Tests of equality selecione mean e clique em ok Os resultados são apresentados em três partes Na primeira está o resultado final Figura 413a que aponta o teste F e também o teste de Welch A seguir está o bloco com o resultado da análise de variância Figura 413b com suas respectivas estatísticas SQG SQE e SQT além das MSG MSE e MST que são ponderadas pelos graus de liberdade Por fim no terceiro bloco Figura 413c são mostradas as estatísticas referentes às séries de dados que foram avaliadas suas respectivas médias desvio padrão e erro padrão tanto por grupo quanto no conjunto Vale destacar que apenas concluir que as médias são diferentes como identificado pelo teste acima não é o suficiente Muitas vezes estamos interessados em saber a origem dessa diferença e isso pode ser verificado a partir do intervalo de confiança O primeiro passo é determinar o tamanho do intervalo Vamos supor 95 para uma estatística t Nesse caso com 27 graus de liberdade o valor de t95 205 e o intervalo para cada grupo é construído a partir de médiat95σ Como obtemos esse resultado para t Usando a função do EViews que descreve o ponto a partir da área Lembrese que a curva t é bicaudal Como queremos 95 de intervalo de confiança sobra 70 Capítulo 4 Estatísticas testes de hipótese e ANOVA a Testes F e de Welch b Análise da Variância c Estatísticas do Grupo Figura 413 Teste de Igualdade das Médias entre as Séries ANOVA 5 para ser dividido nas duas áreas uma à esquerda com 25 e outra à direita com 25 Assim usamos a função scalar intervalo qtdist002527 Aplicando isso para os nossos valores da tabela anterior podemos encontrar os resultados apresentados na Tabela 43 Mínimo Média Máximo C1 481 544 607 C2 336 399 462 C3 385 448 511 Tabela 43 Intervalo de Confiança para a Média 95 Exemplo 41 Também há outra forma de fazer o teste ANOVA conhecendo apenas o número de observações a média e a variância dos dados em questão Suponha por exemplo que se queira verificar se o nível de qualificação de um trabalhador em determinada empresa influencia na sua produtividade Nesse caso selecionamos três tipos de trabalhadores estagiários formado pósgraduado para serem avaliados Os resultados são mostrados na tabela No Média Variância Estagiário 23 291 183 Graduado 21 281 169 Pósgraduado 16 213 152 Como primeiro passo definimos as hipóteses H0 não há diferença entre os níveis de qualificação e produtividade Ha Existe diferença de produtividade entre os níveis de qualificação No total foram 60 dados distribuídos em 23 estagiários 21 trabalhadores graduados e 16 com pósgraduação A seguir temos as respectivas médias de tempo gasto para executar uma tarefa e a variância Note que aqui não temos os dados da pesquisa apenas os resultados de média e variância Mas podemos fazer o teste ANOVA mesmo assim O primeiro passo é determinar a média total entre os três grupos No nosso exemplo essa é dada por 2116 A seguir fazemos a soma do quadrado total que consiste em fazer a diferença entre a média de cada grupo e a média total SQG n1x1 x n2x2 x n3x3 x SQG 23291 2616 21281 2616 16213 2616 SQG 65534 A seguir encontramos a estatística SQE que é uma medida de variabilidade de cada grupo within group usando a formula do SQE onde s²i é a variância do grupo i temos SQE n1 1s²1 n2 1s²2 n3 1s²3 SQE 22183 20169 15152 SQE 96860 Agora devemos fazer o ajuste para cada uma das estatísticas pelos graus de liberdade No caso da SQG os graus de liberdade são dados pela diferença entre o número de argumentos menos um Como temos três diferentes argumentos estagiário graduado e pósgraduado então há 2 graus de liberdade para SQG No caso de SQE os graus de liberdade são dados pela diferença entre o total de dados utilizados e o número de argumentos Como temos um total de 60 dados então os graus de liberdade de SQE serão 57 Podemos assim encontrar a estatística F F SQGm1 SQEnm 655342 9686057 192828 Com esse resultado rejeitamos fortemente a hipótese nula basta ver em scalar f 1cfdist192828 257 no EViews que produz um pvalor0000 Sendo assim o nível de qualificação é importante para determinar diferenças na produtividade Descobrimos que existe diferença mas não de onde vem essa diferença Para responder a esse ponto aplicamos um teste de diferença de média que usa a curva t Como temos três argumentos para descobrir a origem da diferença temos que testar aos pares Nesse tipo de teste temos que determinar apenas qual é o nível de significância procurado para que se construa o intervalo de confiança Como regra geral ao avaliar a diferença entre a média do grupo 1 com a média do grupo 2 usamos μ1 μ2 tα2c SQEmn 1n1 1n2 onde μ1 é a média do grupo 1 tα2c é a estatística t avaliada em um ponto α é o nível de significância mn é o número de graus de liberdade n1 é o total de dados do grupo 1 e c é dado por c mm12 Como regra de decisão se o intervalo de confiança não contiver o valor 0 então rejeitamos a hipótese nula Primeiro vamos descobrir se tem diferença entre o resultado para estagiário e graduado H0 μestagiário μgraduado Ha As médias são diferentes Nesse caso temos c 3312 3 e para α 005 temos que encontrar o valor de tα2c t0056 00083 Isso pode ser feito no EViews utilizando scalar tqtdist0008357 Com isso temos um valor de 246 Agora é só determinar o intervalo 291 281 246 16992 123 121 Dessa forma não rejeitamos a hipótese nula Ou seja a média entre estagiários e graduados é estatisticamente igual Faça a mesma conta para verificar a diferença de média entre estagiário e pósgraduado O resultado será 449 μ1 μ3 1110 fazendo com que se rejeita a hipótese nula ou seja há diferença de média entre estagiários e pósgraduados Por fim podemos fazer para verificar a diferença entre graduado e pósgraduado o que irá resultar em 343 μ1 μ3 1016 Também apontando para a rejeição da hipótese nula ou seja temos diferença entre as médias Programação 483 Diante de dados como o apontado no exemplo da qualificação podemos usar de programação para produzir os resultados do teste ANOVA de maneira direta programa para calcular o intervalo de confiança em um teste ANOVA os parametros abaixo podem ser modificados n representa o total de dados por gruposm representa a media do grupo scalar n123 scalar n221 scalar n316 scalar totaln1n2n3 scalar m1291 scalar m2281 scalar m3213 scalar sqe196860total3 parâmetros de escolha para o intervalo scalar alfa005 resultado para a estatística t scalar tqtdistalfa6total3 testando a diferença entre m1 e m2 scalar minimom1m2tsqrtsqe11n11n2 scalar maximom1m2tsqrtsqe11n11n2 49 Exercícios Exercício 41 Três tipos de baterias estão sendo testadas sob condições de alta pressão Na tabela abaixo está o tempo em horas que 10 baterias de cada marca funcionou antes de ficar sem energia 49 Exercícios 73 Marca da bateria 1 2 3 560 538 640 543 663 591 483 460 656 422 231 664 578 455 559 522 293 493 435 390 630 363 347 677 502 425 529 517 735 518 a Use a análise de variância para determinar se as baterias de cada marca levaram tempos significativamente diferentes para descarregar por completo Se o tempo de descargamento for significativamente diferente ao nível de confiança de 005 determine qual marca de bateria diferem uma das outras Especifique e verifique os pressupostos do modelo b Podemos dizer que resultados da marca 1 tem distribuição normal a 5 de significância A tabela ANOVA do Exercício 41 é Soma dos quadrados Graus de liberdade Var do quadrado médio Razão F Entre médias 1077 2 539 479 Within groups 3033 27 112 Total 4111 Testando 5 de significância a região crítica inclui os valore superiores a F227095 3354 O resultado da Razão F 479 fica na região crítica portanto rejeitamos a hipótese das médias serem iguais O teste indica que não há diferença entre as marcas 1 e 2 mas a marca 3 diferese da marca 2 O resultado do teste de JarqueBera foi 50603 e aplicando à uma distribuição quiquadrado com 2 graus de liberdade temos que χ2 2 00796 Portanto não podemos rejeitar a hipótese nula de existência de distribuição normal Exercício 42 Uma siderúrgica está testando a eficiência do seus altofornos Para a produção de uma peça específica o forno precisa alcançar rapidamente a temperatura de 900 C Quatro fornos foram testados várias vezes para determinar o tempo em minutos que levavam para atingir essa temperatura e foram obtidos os seguintes resultados Forno ni xi si 1 15 1421 052 2 15 1311 047 3 10 1517 060 4 10 1242 043 O tempo médio de aquecimento dos fornos são diferentes Caso sejam qual forno é o mais rápido E qual é o mais lento A tabela ANOVA para o Exercício 42 é 74 Capítulo 4 Estatísticas testes de hipótese e ANOVA Soma dos quadrados Graus de liberdade Var do quadrado médio Razão F Entre médias 47106 3 15702 61303 Within groups 11782 46 02561 Total 58888 49 Testando um nível de 5 de significância F346095 2802 Considerando que 61303 2806 rejeitamos a hipótese nula Assim consideramos que o tempo médio de aquecimento dos fornos diferemse Realizando múltiplas comparações concluímos que o forno número 4 é o mais rápido e o número 3 o mais lento 5 Características dos dados de séries de tempo Um banco de dados pode ser organizado de várias formas e os testes e modelos aplicados seguem esse desenho Para dados com periodicidade definida como mês trimestre ou ano usamos os conceitos de série de tempo Por outro lado podemos ter dados que descrevem as características em um dado momento de vários indivíduos denominados de cross section Também há a opção de dados em painel que agrega informações de indivíduos com o tempo Nesse capítulo serão apresentadas as principais características de uma série de tempo assim como os ajustes e filtros possíveis de serem aplicados com o EViews R Com conjunto de dados de série de tempo é possível extrair várias informações que ajudam a compreender o comportamento desses ao longo do período 51 Ajuste Sazonal A sazonalidade é entendida como um processo que pode ter diferentes periodicidades dentro de um determinado período Podemos identificar a presença de sazonalidade em dados trimestrais ou mensais os mais comuns mas também é possível que se tenha um comportamento sazonal em dias dentre de uma semana horas e etc As primeiras investigações 1 sobre essa característica dos dados remontam a 1884 e até mais recentemente a forma de identificar essa era decompondo a série de dados yt a partir de seus componentes como tendência Tt ciclo Ct sazonalidade St e componentes irregulares It Os modelos construídos a partir de então são denominados de modelos de componentes nãoobserváveis podendo ter a forma de aditivo yt Tt Ct St It Ou então multiplicativo yt Tt Ct St It De início os modelos que procuravam determinar o comportamento sazonal de uma série de tempo assumiam que esse era constante ao longo do tempo Porém há diversos fatores 1Uma boa referência para essa discussão histórica está em Hylleberg1986 76 Capítulo 5 Séries de tempo como mudanças na temperatura média diferentes expectativas mudança de comportamento do consumidor efeito feriado e outros que podem produzir um padrão sazonal diferente hoje do que se identificava no passado Um ponto importante a lembrar é que a não correção da característica sazonal dos dados antes de se fazer uma análise de regressão bem como a aplicação de um filtro errado para corrigir a sazonalidade podem distorcer os resultados finais e prejudicar a interpretação Nesse caso podemos escolher resolver o problema sazonal de maneira integrada com o modelo final ou então de maneira individual antes da modelagem final Esse caso é o mais comum onde são usadas variáveis dummy para corrigir o problema da sazonalidade Outra alternativa é o uso do Band Pass Filter onde a análise é feita a partir do domínio da freqüência e é utilizada uma transformação de Fourier na série de dados Os modelos de série de tempo para correção da sazonalidade como apontado por Hylle berg2006 podem ser de vários tipos No caso univariado i modelos de BoxJenkins ii modelos de componentes nãoobserváveis iii modelos de parâmetros variáveis no tempo Para o caso multivariado i cointegração sazonal ii cointegração periódica iii características sazonais comuns Como primeiro passo de investigação de uma característica sazonal vamos ver sua representação gráfica Para essa seção vamos usar a série que descreve o PIB mensal do Brasil e calculada pelo Banco Central o IBCBR número 17439 sem ajuste sazonal Você pode fazer o download da mesma no site do BC ou abrir o arquivo de nome IBCbrwf1 Selecione a sérieibcbr e clique em ViewGraphSeasonal Graph tal como mostrado na figura 51 Figura 51 Opções de Gráfico Sazonal Note que em seasonal type temos duas opções a primeira quando é selecionado Paneled lines means irá mostrar como a série de dados se comporta para cada mês ou trimestre e na segunda opção em Multiple overlayed lines os dados são divididos em diferentes linhas cada qual representando o período específico para todo o período amostral Vai da opção de cada um ver qual dos dois gráficos melhor descreve o comportamento dos dados não havendo regra Ambos os gráficos são mostrados na figura 52 O primeiro 52a indica doze linhas de cor azul lembrese que estamos usando dados mensais e que sinalizam como evoluíram os dados em cada mês durante todo o período de análise Esse é complementado com a informação da média para cada mês indicada pela linha vermelha Por exemplo a primeira informação relacionada ao mês de 51 Ajuste Sazonal 77 fevereiro ocorre em 2002M02 e tem valor 99 ao passo que a última em 2015M2 tem valor 138 A média dos valores do mês de fevereiro é 121 e é exatamente a linha vermelha horizontal Para identificar esse valor o leitor deve deixar o mouse posicionado sobre a linha vermelha no gráfico no EViews R Note que a média de valores do mês está bem longe dos extremos sinalizando que durante o período de análise a sazonalidade do mês teve forte modificação tendo atingido um mínimo de 99 e um máximo de 144 Certamente seria um erro considerar a sazonalidade média como representativa de tudo A segunda forma de ver o comportamento dos dados separados para cada um dos meses é selecionando a opção de múltiplos gráficos Multiple overlayed lines cujo resultado está mostrado na figura 52b Note que há uma tendência de crescimento dos valores para cada mês ao longo do tempo Isso tem uma implicação importante como comentado acima em especial pelo fato de que usar a média de cada mês para identificar e corrigir padrão sazonal estaria incorreto ou seja a média de cada trimestre não é constante ao longo do tempo Uma parte da literatura em econometria usa a média como fator de dessazonalização Isso é conhecido como sazonalidade determinística e sua correção é feita com o uso de variáveis dummy valores zero e um a Linhas em painel e médias b Linhas sobrepostas Figura 52 Gráfico da Sazonalidade Mas há outros métodos mais sofisticados e específicos que podem ser utilizados e oEViews R permite seu uso Com a série ibcbr aberta vá em ProcSeasonal Adjustment Note que são fornecidas cinco diferentes opções para se dessazonalizar os dados Vamos discutir os aspectos gerais do método X12 comparativamente ao método das médias móveis e TRAMOSEATS sem entrar no detalhe técnico que pode ser visto em outros livros de econometria 511 Método das Médias Móveis Moving Average Methods Esse método é simples a ponto de resultar em uma importante perda de informação do comporta mento sazonal dos dados Nesse caso a modelagem é feita a partir de yt S s1 δstms εt Onde S é o número de períodos se dados mensais S12 e se forem trimestrais S4 δst assume valores 1 para o respectivo período sazonal em questão e zero caso contrário ms é o valor da média desses períodos e por fim εté estacionário com média zero Sendo assim a equação geral que irá medir a sazonalidade por médias para dados trimestrais é dada por qxt δ1tm1 δ2tm2 δ3tm3 δ4tm4 εt 78 Capítulo 5 Séries de tempo No caso de uma série de dados com periodicidade mensal teremos 12 variáveis δst Para encontrar os respectivos valores devemos criar séries de dados usando variáveis dummy de valor 1 e 0 tal como mostrado abaixo no caso trimestral qx Primeiro Segundo Terceiro Quarto trimestre trimestre trimestre trimestre 1997Q1 38027 1 0 0 0 1997Q2 44520 0 1 0 0 1997Q3 45070 0 0 1 0 1997Q4 46547 0 0 0 1 1998Q1 45003 1 0 0 0 1998Q2 42943 0 1 0 0 1998Q3 44047 0 0 1 0 A seguir rodamos a regressão para encontrar os respectivos valores de ms Note que essa regressão é feita sem o uso da constante Caso contrário seria encontrado cinco valores para a média em dados trimestrais e treze em dados mensais e a matriz não seria simétrica Vejamos como o EVi ews R faz essa estimativa Com a série ibcbr aberta vá em ProcSeasonal AdjustmentMoving Average Methods Escolha o método multiplicativo e um nome para a série resultante aqui no exemplo colocamos o número 1 na frente para diferenciar esse método de dessazonalização do X12 a ser visto a seguir Programação 511 Também pode ser usado um comando para se fazer a dessazonalização Nesse caso para o método multiplicativo podemos escrever seasm ibcbr ibcbrsa ibcbrsf A letra m representa o método multiplicativo Caso queira o método aditivo use a O comando é seguido pelo nome da série o nome da série ajustada sazonalmente e o fator sazonal É comum trabalhar com modelos com várias séries de tempo o que demandaria tempo para aplicar o método de dessazonalização para cada uma Como forma de operacionalizar isso de maneira rápida podemos usar um loop para dessazonalizar todas as séries do banco de dados ao mesmo tempo com apenas um comando simples Porém nesse caso é necessário abrir um programa antes Vá em FileNewProgram A seguir escreva o programa abaixo e salve em qualquer lugar do computador e feche o mesmo for a qx y px pm qm seasm a asa asf next Aqui o termo a denominado no EViews R como string variable indica para o programa que ele irá aplicar a fórmula a todas as séries descritas na sequência seguindo uma de cada vez qx y px pm qm A seguir estão os comandos para salvar as respectivas séries ajustadas sazonalmente e o fator sazonal Para rodar o programa abra o arquivo onde estão os dados Depois vá em windowcommand Note que foi aberta uma janela onde pode ser escrito qualquer fórmula ou programa Assim para rodar o nosso programa escreva o comando run seguindo a localização do programa no computador como por exemplo c run localização do programa A seguir aperte o enter e o programa será executado Esse procedimento é válido para todas as demais aplicações a seguir que envolvem a construção de um programa Como selecionamos a opção de aparecer o fator sazonal o EViews retorna 12 fatores um para cada mês em uma tabela Para não perder essa informação clique em Freeze escolha um nome e depois salve a mesma Esses representam exatamente os fatores sazonais para cada trimestre Se estivéssemos com dados mensais seriam 12 fatores Como nesse método é assumido que os fatores ficam contínuos durante todo o período amostral o gráfico do padrão sazonal apresenta um fator constante como pode ser visto na figura 53 a Ajuste sazonal médias móveis b Fator sazonal médias móveis Figura 53 Gráfico da Sazonalidade Método das Médias Móveis Uma forma interessante de representar esse comportamento sazonal é via uma função trigonométrica qxt α0 k1S2 αk cos 2πktS βt sen 2πktS εt Onde o α0 é uma constante que representa a média e S é o número de componentes sazonais Suponha o exemplo de uma série trimestral Nesse caso S4 e teremos qxt α0 k12 αk cos 2πkt4 βt sen 2πkt4 εt qxt α0 α1 cos 2πt4 β1 sen 2πt4 α2 cos 2π2t4 β2 sen 2π2t4 εt qxt α0 α1 cos πt2 β1 sen πt2 α2 cos πt β2 sen πt εt Mas sen πt 0 sendo assim teremos qxt α0 α1 cos πt2 β1 sen πt2 α2 cos πt εt Onde t123 de acordo com o período amostral e o comportamento cíclico para as trajetórias anuais e semianual é dado por cos πt2 0 1 0 1 0 1 sen πt2 1 0 1 0 1 0 1 cosπt 1 1 1 1 Os componentes α1 e β1 representam a oscilação anual nos dados ao passo que α2 representa o componente semianual Para encontrar os valores desses componentes podemos usar α1 12 m2 m4 β1 12 m1 m3 α2 12 m1 m2 m3 m4 Vejamos para o nosso um onde m1 09479 m2 10105 m3 1035 m4 10078 Sendo assim teremos α1 12 m2 m4 12 10105 10078 000133 β1 12 m1 m3 12 09479 1035 00438 α2 12 m1 m2 m3 m4 12 09479 10105 1035 10078 00086 E o ciclo que domina todo o processo é o anual α1 e β1 são maiores que α2 Ou seja a frequência é mais forte no ciclo anual Os valores são pequenos pois o conjunto de dados tem uma pequena sazonalidade como mostrado pelas médias de cada trimestre Para construir a série do fator sazonal podemos usar o fato de que α0 1 α1 000133 β1 00438 e α2 00086 em qxt 1 000133 cos πt2 00438 sen πt2 00086 cos πt εt 512 TRAMOSEATS Na técnica TRAMOSEATS de dessazonalização combina dois métodos TRAMO e SEATS para decompor a série em seus componentes não observados A primeira é similar a uma regressão ARIMA e é utilizada antes como uma espécie de ajuste dos dados Ao passo que o SEATS é usado para extrair os sinais da série de tempo ou seja os componentes não observados a partir de um modelo aditivo yt TCt St It Sendo que TCt é o componente tendênciaciclo e os demais como dito anteriormente o componente sazonal e o irregular Para selecionar esse método com a série de dados ibcbr aberta vá em ProcSeasonal AdjustmentTRAMOSEATS O EViews irá abrir uma caixa que contém três diferentes opções A primeira delas referese às especificações básicas No 2 TRAMO Time Series Regression with ARIMA Noise Missing Observation and Outliers SEATS Signal extraction in ARIMA time series 3 Mais a frente iremos aprender como são os modelos ARIMA 51 Ajuste Sazonal 81 Figura 54 Opções TRAMOSEATS primeiro bloco podemos escolher rodar apenas o filtro TRAMO somente o SEATS ou então esse após o TRAMO método mais recomendado Normalmente deixamos o horizonte de previsão tal como o default do EViews R sem prejuízo dos resultados finais Na escolha do modelo ARIMA podemos determinar que a mesma é feita via seleção de dados em nível com transformação log ou uma seleção automática No último bloco podemos deixar o filtro TRAMO escolher a melhor especificação ARIMA ou então fazermos a escolha do modelo especificando os parâmetros Esse ponto é interessante pois muitas séries de dados que são dessazonalizadas por institutos de pesquisas já contém o modelo ARIMA e são fornecidos para uso por parte de terceiros Nesse caso se quisermos reproduzir o mesmo modelo basta imputar os dados tal que D é o número de diferenciações AR é o número do componente autorregressivo e MA o de médias móveis Do lado direito estão as opções para salvar as séries de dados Podemos escolher todas as opções encontrar as séries de tendência e do fator sazonal e depois fazer o gráfico Para extrair o componente sazonal temos que encontrar o fator sazonal pelo método aditivo Há duas outras abas com opções que podem ser uteis A Regressors é para especificar se no processo de identificação queremos colocar alguma variável exógena Na abaOutliers podemos escolher se tem algum especificando o período ou então deixar que o programa faça a identificação Ao clicar em OK o EViews R irá mostrar um relatório que contém todos os procedimentos testes e ajustes necessários no processo de estimativa Podemos salvar esse relatório clicando em Freeze Atualizando o mesmo poderá ver que o modelo final é da forma 211011 sem média sem correções para dias da semana ou páscoa A ordem dos números mostrados acima é AR D MASAR SD SMA ou seja temos um modelo ARIMA 211 com sazonalidade SARIMA 011 Veremos isso mais a frente A seguir o EViews R salva todos os resultados em um grupo de séries Salve esse como grupo 1 para consulta futura Agora selecione a série ibcbrtrd e ibcbrsf e faça um gráfico com dois eixos como mostrado em 55 513 Método Census X12 Esse é sem dúvida um dos métodos de identificação dos componentes de uma série de dados mais utilizado na literatura até o momento Quando esse é selecionado é possível identificar várias opções A primeira delas é a X11 Method Há pequenas diferenças no uso de cada uma mas recomendase ao leitor que utilize o método Additive caso tenha valores negativos ou zero Na 82 Capítulo 5 Séries de tempo Figura 55 Tendência e fator sazonal opção Seasonal Filter que irá gerar os fatores sazonais está selecionado como default o método X12 Sugerese fortemente seu uso4 Na opção Trend Filter o leitor poderá notar que o default é deixar o EViews R determinar quantos termos serão utilizados nas médias móveis para extrair a tendência Em Component Series to Save podese especificar o nome da série que será salva além de outros seis componentes A primeira opção retorna a serie ajustada sazonalmente Além disso a aplicação do filtro X12 permite que se tenha a informação de três importantes características dos dados os fatores sazonais a tendência cíclica o componente irregular Nos dois últimos estão as opções de ajuste dos fatores ao efeito calendário de dias de negociação no mercado ou para feriados Esses estão definidos no EViews R para os feriados dos EUA e páscoa no Canadá Quando aplicados duas opções são selecionadas abre outras opções na aba Trading DayHoliday Há três outras abas com diferentes opções Em Outliers podemos especificar se em determinada data haverá um outlier Na opção ARIMA Options escolhemos se há ou não transformação dos dados se teremos repressores exógenos ou se queremos usar alguma amostra de dados na estimativa Por fim na aba Diagnostics podemos pedir para que seja feita uma análise da sazonalidade e que seja mostrado o diagnóstico dos resíduos detecção de outliers ou gráficos Na aba Seasonal Adjustment vamos selecionar o método multiplicativo selecionando as quatro opções de componentes como mostra a figura 56a e então clique em Ok Não esqueça de mudar o nome base para ibcbr2 para que a nova estimativa não apague a anterior Ao fazer a dessazonalização o EViews R retorna uma página com diversas descrições do processo implementado Essa pode ser fechada sem prejuízo da análise futura ou então salva com clicando em Freeze Ao voltar para a página do workfile poderá ver que foram criadas quatro novas séries de dados todas com o nome da série original mais os termos que representam cada uma dos componentes No nosso caso ibcbr2sa ibcbr2sf ibcbr2tc ibcbr2ir A figura 56b mostra a evolução do fator sazonal para a série qx Note que o mesmo não é constante ao longo do tempo sugerindo que a correção pela sazonalidade deve preservar essa diferença Esse fator sazonal pode então ser utilizado para dessazonalizar os dados originais Para tanto no workfile clique em GenrGenerate Series by Equation Essa opção abre uma janela e permite que 4O método X12 ARIMA é melhor do que o X11 e incorpora diversos pontos interessantes como por exemplo a possibilidade de detectar outliers mudanças no padrão sazonal mudanças de nível na série melhor para tratar com séries de dados com falhas de informação efeito calendário e testes de diagnóstico 51 Ajuste Sazonal 83 a Ajuste sazonal X12 b Fator sazonal ibcbrsf Figura 56 Gráfico da Sazonalidade Método X12 multiplicativo Figura 57 Gerar série por equação se crie uma série nova a partir de outras existentes Vamos usar um nome teste para representar essa dessazonalização tal como mostrado na Figura 57 onde vamos dividir a série original pelo fator sazonal teste ibcbr ibcbr2s f A seguir clique em Ok e confira os dados com os obtidos em ibcbrsa O leitor poderá ver que são idênticos Os dois outros componentes são a tendência cíclica descrito como ibcbrtc e o componente irregular ibcbrir cujos gráficos estão dispostos na figura 58 Note que juntamente com os mesmos foi escolhida a opção Kernel density em Axis borders Isso ajuda a compreender como os dados estão distribuídos possibilitando observar que os resíduos do modelo X12 ARIMA possuem distribuição normal tal como esperado De forma geral o que obtemos aqui é uma decomposição da nossa série original em 3 impor tantes fatores i fator sazonal ii tendência cíclica iii componente irregular Assim também podemos obter a série original a partir desses 3 fatores basta fazer ibcbr ibcbrsf ibcbrtcibcbrir Nesse caso escolhemos um nome para essa nova série teste e construímos uma fórmula para ela a partir da multiplicação dos três componentes anteriores A seguir o leitor poderá ver que foi criada uma série de nome teste no workfile Além de determinar os componentes de uma série de tempo o EViews R também faz a correção sazonal dos dados como o leitor pode ver no workfile a partir da série ibcbr2sa Essa é obtida dividindose a série original pelo seu fator sazonal ibcbr2sat ibcbr2t ibcbr2s ft 84 Capítulo 5 Séries de tempo a Tendência cíclica ibcbrtc b Componente irregular ibcbrir Figura 58 Gráfico dos componentes da série ibcbr Figura 59 Gerar série por equação Programação 512 O método de dessazonalização X12 possui muitas opções A forma mais básica pode ser aplicada como a seguir seguindo o exemplo utilizado para as médias móveis Assim usamos um procedimento para aplicar tanto o método das médias móveis quanto o X12 a várias séries ao mesmo tempo Abra o mesmo programa de antes e agora acrescente o termo para a dessazonalização pelo X12 Depois vá ao arquivo original e rode o mesmo for a qx y px pm qm seasm a asa asf ax12modem filtermsr save d10 d11 d12 ax12 next Nesse caso usamos o método multiplicativo se quiser usar o método aditivo mude de m para a como filtro selecione o X12 e salvamos respectivamente os fatores sazonais d10 as séries ajustadas sazonalmente d11 e a tendência cíclica d12 Ao final o termo a serve para usar o nome da série como nome base Por exemplo quando o programa estiver aplicando a dessazonalização para a série qx irá salvar a série de fatores sazonais como qxsf Uma alternativa de dessazonalização é via método aditivo Nesse caso também podemos selecionar a opção de obter os três fatores i fator sazonal ii tendência iii componente irregular além da série ajustada sazonalmente Algumas diferenças de resultado aparecerão entre o método multiplicativo e aditivo como por exemplo o fator sazonal e o irregular Mas a série ajustada sazonalmente irá produzir resultados semelhantes Porém ao invés de dividir a série original pelo seu fator sazonal como feito no método multiplicativo agora diminuímos a mesma de seu fator sazonal 51 Ajuste Sazonal 85 a Ajuste sazonal X12 b Fator sazonal qxadsf Figura 510 Gráfico da Sazonalidade Método X12 aditivo Programação 513 Como forma de complementar a análise das séries quando se tem mais de uma pode ser mais útil agrupar as mesmas Nesse caso recorremos ao comando group como mostrado abaixo onde agrupamos todas as séries ajustadas sazonalmente no seu banco de dados feitas anteriormente em um grupo de nome ajustada group ajustada qxx12sa pxx12sa pwx12sa prx12sa yx12sa Para ver como isso ocorre repita os passos anteriores mas escolha o método aditivo Para que as séries salvas sejam diferentes das anteriores use um subíndice ad tal como mostrado na figura 510a Note que o resultado do fator sazonal oscila em torno do valor zero ao invés de oscilar em torno de 1 como no método multiplicativo mas o resultado é o mesmo A seguir use ibcbr2adsat ibcbr2t ibcbr2adsft Para encontrar a série ajustada sazonalmente Por fim para obter a série original não multiplicamos os três fatores tal como no caso do método multiplicativo e sim somamos os mesmos ibcbr2t ibcbr2adsft ibcbr2adtct ibcbr2adirt Há diversas opções que o EViews R permite aplicar no ajuste sazonal Em especial e muito comum para o Brasil seria um ajuste que considerasse os feriados Apesar de disponibilizar essa opção em Trading dayHoliday a mesma está formatada para feriados nos EUA Programação 514 O gráfico do fator sazonal para cada uma das séries do seu banco de dados pode ser solicitado Nesse caso usamos o objeto graph Como queremos um gráfico de linha usamos o comando line Por fim é especificada a série que será feito o gráfico Nesse caso ax12sf for a qx y px pm qm seasm a asa asf ax12modem filtermsr save d10 d11 d12 ax12 graph gra ax12line ax12sf next 86 Capítulo 5 Séries de tempo Programação 515 Alternativamente podemos estar interessados em avaliar como fica cada uma das séries ajustadas sazonalmente a partir de dois diferentes métodos Nesse caso aplicamos o método das médias móveis e depois o X12 Em ambos fazemos tanto a sazonalidade aditiva quanto multiplicativa A seguir é calculada a correlação entre as séries ajustadas sazonalmente e o resultado é armazenada em uma tabela de nome correl scalar sum1 table34 correl correl21aditivo correl31multiplicativo correl12ctotal correl13preco correl14renda for a qx y px pm qm seasa a aasa aasf seasm a amsa amsf ax12modea filtermsr save d10 d11 d12 aa ax12modem filtermsr save d10 d11 d12 am correl2sum1coraasaaasa correl3sum1coramsaamsa sumsum1 next 514 Método Census X13 Esse é um dos mais novos métodos de dessazonilização disponível e que foi desenvolvido pelo US Census Sua aplicação deve ser feita apenas para dados mensais ou trimestrais sendo necessário ter ao menos três anos completos de dados Com a série de dados ibcbr aberta clique em viewseasonal adjustmentcensos x13 A caixa de diálogo que aparece como mostrado na Figura 511 permite especificar aspectos da variável como alguma transformação que tenha sido feita do tipo log ou logit determinar o modelo ARIMA escolher o método de ajuste sazonal e os resultados a serem mostrados A opção X13 built in regressors permite inserir uma constante no modelo sazonalidade via dummy ou trigonometricamente especificar os dias de negociação determinar os feriados ou escolher o tipo de outlier que pode ser usado no processo de estimativa A seguir podemos especificar em Userdefined regressors se queremos usar alguma variável exógena para melhorar o modelo proposto Na opção ARIMA podemos escolher o tipo de modelo caso se tenha um conhecimento prévio selecionando a opção manual Nesse caso os parâmetros são p d qP D Q com as letras minúsculas representando o componente ARIMA e as letras maiúsculas os componentes sazonais Por exemplo a série do PIB trimestral do IBGE para serviço de informação tem uma decomposição dos componentes do modelo ARIMA aditivo e dado da forma 011011 Já a série da indústria de transformação tem um método aditivo do tipo 210011 mas com três intervenções dummy AO 19963 representa uma dummy aditiva no mês de março de 1996 LS 20084 é dada por uma dummy do tipo levelshift mudança no nível no mês de abril de 2008 TC 20091 é uma dummy definida como constantlevelchange ou seja uma mudança no nível em janeiro de 2009 Todas essas intervenções podem ser facilmente inseridas via X13 built in regressors juntamente com ARIMA model e escolhendo manual e colocando 210011 Logo abaixo da opção manual está a opção X11 Auto Nessa o EViews R irá estimar todos os modelos que estão especificados na lista você pode inserir mais opções e modificar as opções de escolha Uma opção interessante é fazer a especificação with limits que irá estimar 51 Ajuste Sazonal 87 Figura 511 Opções do Método X13 todas as possíveis combinações de modelos com AR MA e D especificadas Veremos um exemplo mais a frente Por fim temos a opção TRAMO Auto que permite a escolha o modelo ARIMA e diferenciação máximos A seguir temos as opções de estimação do modelo ARIMA onde escolhemos os critérios e o período a ser utilizado Na opção ARIMA forecast podemos usar o melhor modelo encontrado para prever dados futuros com base em suas características encontradas Na opção Seasonal Adjustment podemos escolher o método de ajuste sazonal entre x11 ou SEATS Se escolher none não será feito nenhum ajuste sazonal na série sendo apenas escolhido o melhor modelo ARIMA A última escolha é para Output onde selecionamos os resultados a serem mostrados Note os códigos das séries resultantes D11 dados ajustados sazonalmente D12 tendência D10 fator sazonal D13 componente irregular Vejamos como usar essas opções do x13 na série do ibcbr Abra a mesma e clique em Proc Seasonal Adjustment Census X13 Nas opções Variables vamos deixar como default ou seja os dados não possuem transformação transform option não é feita intervenção no X13 built in regressors não usamos variável exógena e por fim não usamos Automatic outliers Como primeiro passo vamos investigar qual seria o melhor modelo ARIMA para descrever a sazonalidade de ibcbr Na opção ARIMA Model selecione TRAMO Auto tal como mostrado na Figura 512 Após clicar em OK será produzido um relatório de resultados Sugiro fortemente olhar o relatório pois ali irá constar as características do melhor modelo final selecionado que é da forma 311011 Esse processo convergiu após 64 iterações tendo sido investigadas 415 funções Os coeficientes estimados e os erros padrão também são fornecidos bem como alguns critérios que são utilizados para comparar modelos como AIC BIC e HannanQuinn veremos isso mais a frente Como não fizemos nenhuma seleção adicional o EViews R irá retornar a série ibcbrd11 que descreve os dados ajustados sazonalmente Para ver os demais resultados das séries vá em output e escolha D12 D10 e D13 Uma opção interessante é tentar identificar se existe outlier ou não no modelo ARIMA Com a série ibcbr aberta selecione X13 e na opção Automatic outliers clique em Temporary change TC Mantenha todo o período amostral e o processo de seleção One at a time como mostrado na Figura 513a A seguir em ARIMA Model clique em manual e especifique o modelo 311011 tal como na Figura 513b Por fim em Output selecione todas as opções e clique 88 Capítulo 5 Séries de tempo Figura 512 Métodos ARIMA em X13 a Automatic outliers b ARIMA Model Figura 513 Identificação de outliers em OK Na página de resultados são mostradas as estimativas para o outlier do tipo TC Primeiro veja o valor crítico t 391 A data com o resultado do tvalor mais alto é dezembro2008 com t 360 Note que esse resultado fica dentro do intervalo de confiança especificado 391 t 391 e com isso aceitamos a H0 de não existência do outlier do tipo TC Dado que ele não é significativo as estimativas seguintes são testes sem a presença do outlier 515 Alisamento Exponencial Esse recurso é muito útil para fazer previsões especialmente para séries de dados de curta pe riodicidade e com a vantagem de que seus coeficientes são atualizados a cada momento não permanecendo fixos ao longo do processo5 Há dois tipos de alisamento disponíveis noEViews R o SES Simple Exponential Smoothing e o ETS Exponential Smoothing Vamos exemplificar seu uso com a série de dados qx que tem periodicidade trimestral Com a série qx aberta selecione ProcExponential Smoothing Simple Exponential Smoothing Como mostra a figura 514 o EViews R permite que se escolha dentre 5 diferentes opções de 5Porém no processo de previsão os mesmos tornamse fixos 51 Ajuste Sazonal 89 Figura 514 Alisamento exponencial da série qx método para se fazer o alisamento exponencial Além de selecionar o método o leitor também tem a opção de determinar os parâmetros a serem utilizados ou então deixar a letra E para que o EViews R estime os mesmos Valores próximos a zero significam que informações passadas são importantes para determinar o futuro Ao passo que valores mais próximos de 1 representam um comportamento tipo random walk onde apenas a última informação é útil para prever o futuro Recomendase deixar o EViews R estimar o valor dos parâmetros Na tabela 51 está uma descrição das equações e aplicações desses diferentes métodos Tabela 51 Diferentes métodos de alisamento exponencial Método Equação Aplicação Simples ˆyt αyt 1αˆyt1 Em séries sem constante ten dência ou sazonalidade Duplo ˆyt αyt 1αˆyt1 ˆDt α ˆyt 1α ˆDt1 Melhor para séries com ten dência linear Aplica o mé todo simples duas vezes Holtwinters sem sazonali dade ˆytk α tk Útil para séries com tendência linear e sem sazonalidade Holtwinters mult ˆytk α tkctk Útil para séries com tendência linear e sazonalidade multipli cativa Holtwinters adit ˆytk α tk ctk Útil para séries com tendência linear e sazonalidade aditiva Nota o termo α é o parâmetro de alisamento t é a tendência e c a sazonalidade Do lado direito da janela que será aberta o EViews R sugere um nome para a série alisada qxsm Logo abaixo tem o período de especificação da amostra Se deixarmos como data final 2015Q4 o EViews R irá fazer a previsão a partir desse ponto O problema com essa escolha é que após feita a previsão não há informação verdadeira para comparar com essa previsão Portanto se o objetivo é apenas prever tudo bem podemos usar como data a última observação Por outro lado se o objetivo é testar essa previsão o melhor seria determinar uma data anterior ao final reservando dados para comparação Por fim tem a opção do Cycle for seasonal Note que para esse exemplo temos o número 4 que representa a quantidade de trimestres no ano Se os dados forem mensais o EViews irá retornar o número 12 Caso o leitor tenha dados sem periodicidade ou então dados diários do mercado financeiro pode escolher um número diferente Como exemplo vamos estimar cada um dos cinco métodos para a série qx Para o primeiro método selecionamos a série de resultado como qxsm1 Para o segundo método qxsm2 e assim sucessivamente Além disso vamos deixar quatro trimestres de dados para comparar com as previsões digitando como data final em estimation sample 2014q4 Os resultados são mostrados na tabela 52 Tabela 52 Resultados do alisamento exponencial para qx Simples Duplo Holtwinters sem sazonalidade Holtwinters adit Holtwinters mult Parameters Alpha 09990 04680 10000 10000 10000 Beta 00100 00000 00000 Gamma 00000 00000 Sum of Squared Residuals 29633370 30606500 24138800 13531410 13397440 Root Mean Squared Error 64154 65199 57902 43352 43136 End of Mean Period Levels 877719 878750 877700 874709 868356 Trend 09136 10562 06047 06047 Seasonals 2014Q1 42175 09429 2014Q2 08709 10105 2014Q3 30475 10358 2014Q4 02991 10108 Note que o coeficiente α varia de um valor mínimo de 048 a um máximo de 1 sinalizando que as informações passadas são úteis para prever o comportamento futuro O valor zero para o parâmetro beta e gamma indicam que os mesmos foram constantes Por exemplo para o modelo simples temos ŷt 0999yt 1 0999 ŷt1 Também são fornecidas duas estatísticas de previsão que podem ser utilizadas para comparar os diferentes modelos SSR soma do quadrado dos resíduos 6 RMSE raiz do erro quadrado médio 7 Comparando essas para os cinco modelos podemos ver que praticamente não há diferenças entre o HoltWinters aditivo e o multiplicativo e que ambos são os melhores modelos de previsão Os valores de média e de tendência fornecidos 6 SSR t1n y ŷ2 7 RMSE t1n y ŷ2n 51 Ajuste Sazonal 91 para o fim do período são usados para fazer a previsão bem como a estimativa da sazonalidade A figura 515 mostra o comportamento da estimativa entre 1997Q1 e 2014Q4 e também da previsão para os quatro trimestres à frente 2015Q1 a 2015Q4 usando esses cinco métodos juntamente com o resultado de verdadeiro de qx a Previsão dos dados b Valores previstos Figura 515 Alisamento exponencial da série qx Note que pelo método mais simples que não considera a presença de tendência e sazonalidade as previsões são constantes e refletem exatamente o valor da média 877719 obtido para o último período da estimativa 2014Q4 Já o método Duplo tem a influência de uma tendência de valor 10167 Nesse caso o resultado para a primeira previsão é dado por duplo2015q1 média tendência duplo2015q1 87875009136 887886 No segundo momento a previsão passa a diferir apenas na magnitude da tendência Ou seja usase a estimativa da média do momento anterior e com base nela é somada a tendência Assim a previsão do próximo trimestre é dada por duplo2015q2 88788609136 897022 Ou então duplo2015q2 878750209136 897022 E assim sucessivamente para mais períodos a frente duplo2015q3 878750309136 906159 No modelo HoltWinters sem sazonalidade também há dois resultados para se fazer a previsão a média e a tendência E basta fazer a previsão para os trimestres a frente como fizemos no método duplo Porém os dois últimos métodos contemplam a presença da sazonalidade Nesse caso as previsões devem considerar essa influência em seus respectivos trimestres Por exemplo no HoltWinters aditivo a previsão para 2014Q1 é dada pela soma da média da tendência e também da sazonalidade do primeiro trimestre HWaditivo2015q1 média tendência sazonalidade2014q1 HWaditivo2015q1 8747090604742175 838581 Na previsão do segundo trimestre multiplicamos a tendência por 2 e aplicamos a sazonalidade de 2015q2 HWaditivo2015q2 média2tendênciasazonalidade2014q2 92 Capítulo 5 Séries de tempo HWaditivo2015q2 87470920604708785 895513 E assim sucessivamente sempre aplicando um multiplicador para a tendência e considerando o fator sazonal do respectivo trimestre que está sendo feita a previsão Por exemplo se quisermos fazer essa previsão para 6 trimestres à frente usamos HWaditivo2016q2 87470960604708785 919701 Por fim temos o método HoltWinters multiplicativo Nesse caso a sazonalidade é multiplicativa e fazemos a previsão para 2015Q1 da seguinte forma HWmultiplicativo2015q1 média tendênciasazonalidade2014q1 HWmultiplicativo2015q1 8683560604709429 824517 Para prever o segundo trimestre multiplicamos a tendência por 2 e consideramos a sazonalidade de 2015q2 HWmultiplicativo2015q1 média 2tendênciasazonalidade2014q1 HWmultiplicativo2015q1 86835620604710105 889725 Programação 516 O método de alisamento exponencial permite que sejam escolhidas cinco diferentes alternativas sdnam e que seguem respectivamente as opções de escolha entre os modelos simple duplo Holtwinters no seasonal Holtwinters seasonal aditivo e por último o multiplicativo Para usar o método multiplicativo em uma única série de dados como por exemplo qx deixando que os parâmetros sejam estimados usamos qxsmoothmeee qxsm1 Alternativamente dando sequencia ao programa anterior podemos determinar que o ali samento exponencial seja feito para uma sequencia de séries de dados Nesse caso apenas acrescentamos ao nosso programa a opção abaixo for a qx y px pm qm seasm a asa asf ax12modem filtermsr save d10 d11 d12 ax12 graph gra ax12line ax12sf asmoothmeee asm1 next Alternativamente para uma única série de dados podemos ver como se comportam as previsões a partir dos cinco diferentes métodos de alisamento exponencial Nesse caso usando a série qx de exemplo o loop pode se modificar para for a s d n a m smoothaeee qx qxa next Ou então podemos pedir que os cinco métodos sejam aplicados para cada uma das séries de dados que temos Nesse caso podemos usar um comando for dentro de outro comando for 52 ETSERRORtrendseasonal 93 for b qx y px pm qm for a s d n a m smoothaeee b ba next next Programação 517 Alternativamente podemos fazer os cinco diferentes métodos de alisa mento exponencial para cada uma das séries de dados e a seguir armazena o resultado do RMSE em uma tabela de nome alisa table64 alisa alisa21single alisa31doble alisa41no seas alisa51HWno seas alisa61HWseas alisa12ctotal alisa13preco alisa14renda scalar sum1 scalar numero1 for b ctotal preco renda for a s d n a m smoothaeee b balisaa alisasum1numero1rmsebbalisaa sumsum1 next numeronumero1 scalar sum1 next 52 ETSERRORtrendseasonal Os modelos ETS são bem mais complexos e eficientes que a proposta anterior ES e se diferenciam por incorporar o erro de previsão do passo anterior para melhorar a estimativa no momento presente Aqui a ideia é decompor a série de dados em três componentes T tendência S sazonalidade e I componente irregular ou resíduo Tal como visto anteriormente nos métodos de dessazonalização aqui podemos ter modelos aditivos e multiplicativos ou então combinados totalizando 30 diferentes tipos de modelos Em resumo temos Modelo aditivo puro y T SI Modelo multiplicativo puro y T SI Modelo misto y T SI Modelo ANN Vejamos como é o modelo mais simples de todos dado por A N N erro aditivo sem tendên cia sem sazonalidade aplicado ao IBCBr Para estimálo abrimos a série ibcbr e vamos em Proc Exponential Smoothing ETS Exponential Smoothing abrindo a caixa de diálogo apresentada Figura 516a a qual também já apresenta as configuração utilizadas para o modelo mais simples O resultado é tal como mostrado na figura 516b De forma geral teremos que 94 Capítulo 5 Séries de tempo a Especificações do ETS Smoothing b Resultado do ETS Smoothing Figura 516 ETS Smoothing Simples ˆyt ˆyt1 αεt1 Dito de outra forma nossa previsão é corrigida pelo erro de previsão do passo anterior Ali temos a estimativa do parâmetro x0624931 e o valor inicial de 9765847 Logo abaixo temos diversas estatísticas de comparação de modelos Você deve estar se perguntando de onde vem esse valor inicial E o alfa Aqui começamos a ter o primeiro contato com o processo de maximização em série de tempo e iteração Para começar o modelo precisamos de um valor inicial a semente e um valor de x O valor inicial é para representar a previsão do primeiro mês que no nosso exemplo é de y19615 O valor de α é para encontrar a evolução da nossa estimativa Suponha um valor inicial de ˆy1 976584 Com esse encontramos um erro de previsão ε de y1 ˆy1 ε1 96159765 1508 Considerando α 06249 podemos fazer ˆy2 αy1 1αˆy1 ˆy2 06296150389765 9671 Como podemos prever o momento ˆy2 Precisaremos do valor de α Veja que para prever o passo atual usamos a informação verdadeira em t 1 e a estimada ou então a previsão em t 1 pode ser encontrada aplicando ˆy2 ˆy1 αε1 ou ˆy2 9765 0621508 Agora podemos encontrar o erro de previsão no passo 2 ε2 da mesma forma que antes ε2 y2 ˆy2 98679671 1954 ou então usando o erro de previsão anterior ˆy3 ˆy2 αε2 9671062195 9793 52 ETSERRORtrendseasonal 95 Figura 517 Previsão simples no modelo ETS Fazemos isso sucessivamente e encontraremos diversos erros de previsão Esses são utilizados para encontrar as estatísticas SSR RMSE e AMSE bem como o valor do log verossimilhança veremos isso mais a frente Porém o que garante que o valor inicial que usamos 9765 e o α 0624931 produzem o melhor modelo Automaticamente no processo de iteração são testadas combinações de diferentes valores iniciais com diferentes valores deα até que se encontre aquele que gera o menor erro Esse é o produto final mostrado nas estimativas Agora vamos ver como fica a previsão n passos a frente ˆy2016M2 αy2016M1 1αˆy2016M1 0621279203813520 1306514 Daí em diante como não há mais valor conhecido a previsão será dada por ˆy2016M3 y2016M2 1306514 E nosso gráfico de previsão é tal como mostrado na Figura 517 Modelo MAN Esse modelo também é conhecido como método de holt com erros multiplicativos e uma tendência aditiva Na caixa de diálogo do ETS Smoothing selecionamos Multiplicative em Erros Innovation type Additive em Trand Type e deixamos None em Seasonal Type conforme a Figura 518a A Figura 518b apresenta os resultados desse modelo Note que agora temos um parâmetro adicionalβ e valor inicial para a tendência em 0312577 Todas as demais estatísticas de comparação são como antes Com a incorporação da tendência a previsão no momento t fica da forma ˆyt ˆyt1 Tt1αεt1 Quando a taxa de crescimento do componente tendência for zero ou seja β 0 O valor inicial estimado para a tendência é T 0312577 e o valor do nível inicial é 9744160 Sendo assim nosso valor inicial é dado por ˆy1 N1 T1 9744160312577 977541 Como temos uma tendência essa deve ser incorporada na previsão dos passos seguintes e também devemos usar o erro de previsão do passo anterior para melhorar o modelo no passo 96 Capítulo 5 Séries de tempo a Especificações do ETS Smoothing MAN b Resultado do ETS Smoothing MAN Figura 518 ETS Smoothing MAN Figura 519 Gráfico da previsão conforme a especificação MAN seguinte Sendo assim nossa previsão para o passo dois é dada por ˆy2 ˆy1 T1αε1 9775031250541604 972003 Com essa estimativa encontramos o erro de previsão no passo dois ε2 y2 ˆy2 98679720 147 que será útil para corrigir a previsão no passo três Fazemos isso até a última observação A partir de então a previsão passa a evoluir de acordo com a tendência como mostra a Figura 519 52 ETSERRORtrendseasonal 97 a Especificação do ETS Smoothing MAM b Resultado do ETS Smoothing MAM Figura 520 ETS Smoothing MAM Modelo MAM Esse é o descrito pela presença de erro multiplicativo tendência aditiva e sazonalidade multiplicativa Com a série ibcbr aberta selecione ETS e depois as opções como mostrado na Figura 520a Note que agora abre a opção de especificação cíclica Como estamos com dados mensais temos um valor cycle12 Os resultados agora possuem estimativa de 3 parâmetros αβγ O primeiro para atualização do erro de previsão o β para a tendência e o γ para a sazonalidade Logo abaixo estão os valores iniciais para o nível a tendência e os 12 estados cada qual representando um mês ver Figura 520b O valor inicial estimado corresponderá à soma de valor do nível da tendência e como temos uma sazonalidade multiplicativa essa soma é multiplicada pelo respectivo estado que corresponde ao mês anterior ˆy1 N1 T1St1 10101840337209503 96322 Como o primeiro mês é janeiro usamos estado dezembro 0950338 Lembrese que esses valores de estado correspondem aos fatores sazonais vistos anteriormente Com base em ˆy1 podemos determinar o erro de previsão no primeiro passo usando ε1 y1 ˆy1 96159632 0172 98 Capítulo 5 Séries de tempo A seguir para prever o passo seguinte usamos o erro de previsão do passo anterior o valor de α e como β 0021679 temos que considerar a taxa de crescimento da tendência O gráfico de previsão pode ser visto na Figura 521 Figura 521 Gráfico da previsão conforme a especificação MAM 53 Ciclo Outra característica observada nas séries de tempo é o componente cíclico Ct Entender como é o comportamento cíclico de uma série de tempo tem sido objeto de estudo com aplicações principalmente na macroeconomia Há diversas técnicas paramétricas e não paramétricas que foram desenvolvidas para esse fim A seguir são apresentados os diferentes filtros disponíveis no EViews R para a estimar a tendência de longo prazo e ciclo 531 Filtro HodrickPrescott Esse é mais conhecido como filtro HP em referência a seus autores ver Hodrick e Prescott 1997 e é usado para estimar o componente de tendência de longo prazo de uma série de tempo Sua estimativa considera a escolha de um parâmetro que irá determinar o grau de aderência dessa tendência à série de tempo Quanto maior for mais linear tornase a tendência de longo prazo estimada Essa técnica de extração do componente cíclico é do grupo das que são aplicadas no domínio do tempo Com a série qx aberta selecione ProcHodrickPrescott Filter O filtro produz duas estimativas uma para a série filtrada ou seja a estimativa de tendência de longo prazo e uma outra para o ciclo que é a diferença entre a série original e filtrada Escolha um nome para cada uma das opções No nosso exemplo escolhemos qxhp e qxciclo A seguir estão as opções de escolha para o parâmetro de alisamento Como default é feita a sugestão com base em Hodrick e Prescott 1997 que leva em conta a periodicidade dos dados Como temos dados trimestrais sugerese usar 1600 Outra alternativa é determinar o valor de com base em Ravn e Uhlig 2002 escolhendo a potência Ao escolher a opção de 1600 duas séries de dados serão salvas no workfile qxhp e qxciclo É simples o leitor confirmar como que se obtém a série de ciclo basta fazer qxciclo qxqxhp Ou seja o ciclo representa a diferença da série original em relação a sua tendência de longo prazo e o resultado de qxciclo é muitas vezes visto como gap Valores acima de zero significam que estamos acima da tendência de longo prazo No caso de usar o PIB esse seria um exemplo de produção acima do potencial uma informação útil para avaliação de conjuntura e que o leitor interessado pode ver em relatórios de bancos corretoras e também do Banco Central Por outro lado valores abaixo de zero são indicações de que estamos abaixo da tendência de longo prazo 53 Ciclo 99 Na figura 522 estimamos três tendências de longo prazo para diferentes valores de λ i λ 0 nome qxhp1 ii λ 1600 nome qxhp iii λ 100000 nome qxhp2 Como pode ser visto para um valor de λ 0 a tendência de longo prazo é igual à série em questão linha azul No valor sugerido de de λ 1600 a tendência de longo prazo oscila um pouco linha verde Por fim para um valor muito alto λ 100000 a tendência de longo prazo se aproxima de uma reta Figura 522 Filtro HP aplicado a qx Um ponto interessante que o leitor poderá notar é que ao se escolher como parâmetro de alisamento a alternativa de Ravn e Uhlig2002 mas deixando o valor 2 em power os resultados serão idênticos ao aplicado o parâmetro λ 1600 sugerido por Hodrick e Prescott1997 Programação 531 O método de HodrickPrescott também pode ser aplicado a partir de uma programação Nesse caso usamos qxhpflambda1600 qxhp qxciclo Entre parênteses é colocado o lambda e o valor que se pretende para o parâmetro Nesse exemplo escolhemos 1600 A seguir estão os nomes das duas séries que serão geradas a primeira é o componente de tendência de longo prazo e a segunda o componente cíclico Note que nessa função é exigido que se tenha antes do nome da segunda série de dados Seguindo a mesma linha de raciocínio podemos juntar em uma única função a dessazonalização dos dados o alisamento exponencial e a aplicação do filtro HP a partir de for a qx y px pm qm seasm a asa asf ax12modem filtermsr save d10 d11 d12 ax12 asmoothmeee asm1 ahpflambda1600 ahp aciclo next Programação 532 A OECD2008 em suas análises de ciclo e construção de indicadores an tecedentes e coincidentes sugere a utilização de dupla filtragem pelo método de HodrickPrescott para extração do ciclo de crescimento Primeiramente é feita uma filtragem ajustando um λ de alto valor para extrair a tendência de longo prazo Para então com um λ menor extrair os movimentos de alta frequência e alizar o ciclo Desta forma a OECD extrai o componente cíclico dentro de uma banda de frequência de 12 a 120 meses que corresponde respectivamente ao 100 Capítulo 5 Séries de tempo λ2 1393 e λ1 13310794 scalar lambda1 13310794 scalar lambda2 1393 for a qx ahpflambdalambda1 ahptrend1 ahpciclo1 ahpciclo1hpflambdalambda2 ahptrend2 ahpciclo2 genr achp ahptrend2meanahptrend2 stdevahptrend2 100 next Note que em primeiro lugar definimos o valor dos λ1 e λ2 dentro das variáveis de nome lambda1 e lambda2 pelo comando scalar Isso facilita visualmente na hora de reescrever a programação para testar diferentes lambdas Em seguida declaramos um loop onde indicamos que a tomará os valores de qxEntão utilizando duas vezes o comando hpf aplicamos o filtro HP com os lambdas definidos anteriormente Além de rodarmos a dupla filtragem padronizamos o ciclo e adicionamos média 100 conforme sugerido OECD2008 A programação pode incluir diversas séries e testes abaixo trazemos um exemplo da dessazonalização pelo método X12 multiplicativo seguido da extração do ciclo de crescimento sugerido em OECD2008 scalar lambda1 13310794 scalar lambda2 1393 for a qx y px pm qm ax12modem filtermsr save d10 d11 d12 asa asahpflambdalambda1 ahptrend1 ahpciclo1 ahpciclo1hpflambdalambda2 ahptrend2 ahpciclo2 genr achp ahptrend2meanahptrend2 stdevahptrend2 100 next A dupla filtragem aproxima o filtro HP aos BandPass filters mostrados a seguir 532 Filtros de Frequência Também conhecidos como BandPass filter é um filtro linear que extrai o componente cíclico de uma série de tempo a partir de um intervalo de duração do mesmo Aqui a análise é feita no domínio da frequência e a série de tempo é representada a partir de uma soma ponderada de oscilações seno e cosseno Sendo assim a questão é como encontrar essa matriz de pesos que será aplicada à série de dados Há vários métodos de aplicação do filtro O que irá diferenciálos é a forma de cálculo das médias móveis São três alternativas As duas primeiras consideram um filtro simétrico e são diferentes apenas na forma como a função objetivo estima os pesos das médias móveis Ao selecionar um desses dois métodos e escolher os Leadlags referese ao comprimento da frequência do ciclo é importante ter em mente que são perdidos os dados do início e fim da série para que seja feita a estimativa Destacase que o comprimento da frequência do ciclo fica constante durante toda a série de dados por isso que esse é um filtro de comprimento fixo O terceiro filtro de nome ChristianoFitzgerald é assimétrico com as ponderações sendo diferentes no tempo e se comportando de acordo com os dados O fato de ser um filtro que é variante no tempo o torna mais completo para se determinar os ciclos de uma série Nesse caso não é necessário especificar o comprimento da frequência do ciclo Com a série qx aberta vá em ProcFrequency Filter e aparecerá uma tela para selecionar as opções do filtro Escolha o primeiro deles Baxterking A seguir do lado direito a opção Leadlags referese ao comprimento da frequência com que ocorre o ciclo Vamos deixar o valor 12 Isso irá resultar na perda de informação do ciclo 12 trimestres antes e 12 trimestres depois reduzindo a estimativa para apenas 36 trimestres A parte do Cycle periods se refere à duração do ciclo Como default o EViews retorna o valor Low6 e High32 Ou seja o ciclo de menor duração tem 6 trimestres e o de maior duração 32 trimestres Depois escolha os nomes para os resultados como mostrado na Figura 523 Do lado esquerdo está a escala para a série qx e qxbp esse sendo o componente de longo prazo 121 smpl 2000M1 2015M7 equation eq1ls qxsa ywsa c matrix100 coef coef100eq1coefs1 matrix100 explicado explicado100eq1r2 for i1 to 99 smpl 2000M1i 2004M12i equation eq2ls qxsa ywsa c coefieq2coefs1 explicadoieq2r2 next smpl all Veja que o valor do R² é obtido usando o comando r2 logo depois do nome da equação nesse exemplo eq1 e eq2 Caso queira determinar a série de valores do R² ajustado use rbar2 A seguir na tabela com o resultado da regressão há a informação do desvio padrão da regressão ou então SE of regression Seu resultado é dado de forma direta a partir do conhecimento da variância dos resíduos visto anteriormente Ou seja como a média dos resíduos é igual a zero é 0 a variância pode ser encontrada a partir de No nosso exemplo s 14034 O comando para obter esse valor é dado por scalar desvio eq1se A estatística seguinte mostrada na tabela de resultados é a log likelihood ou então o log da verossimilhança onde os erros são avaliados supondose uma distribuição normal a partir de Para os dados do nosso exemplo temos que T 187 e sendo assim O comando no EViews para determinar o valor do log da verossimilhança é dado por scalar logver eq1logl A seguir está a estatística F Essa tem como objetivo testar se todos coeficientes das variáveis independentes no modelo em conjunto são estatísticamente iguais a zero Esse teste não inclui a constante É usada a seguinte fórmula geral para o teste 102 Capítulo 5 Séries de tempo Figura 524 Função resposta de frequência BaxterKing Programação 533 Podemos fazer a estimativa do filtro BaxterKing via programação Nesse caso a função utilizada é dada por qxbpftypebk low6 high32 lag12noncycqxbpfciclowwqxbp qxbpf Dentre as várias opções que podem ser especificadas o termo typebk referese ao filtro BaxterKing Se quiser escolher o filtro ChristianoFitzgerald fixo coloque typecffix e para o filtro assimétrico use typecfasym A seguir está o período mínimo do ciclo e o máximo Depois a série de dados ajustada pelo ciclo Por fim podemos selecionar os resultados a serem mostrados Ainda no conjunto de opções podemos escolher o nome da série ajustada pelo ciclo a partir de noncycqxbpfciclo Podemos especificar a matriz de pesos do ciclo usando weightwqxbp A seguir colocamos o nome da série do ciclo qxbpf Se o nome da série do ciclo qxbpf for omitido o EViews R irá criar uma série de nome BPFILTER01 Assim é possível agregar essa estimativa às anteriores a partir de for a qx y px pm qm seasm a asa asf ax12modem filtermsr save d10 d11 d12 ax12 asmoothmeee asm1 ahpflambda1600 ahp aciclo abpftypebklow6high32noncycabpfciclowwabp abpf next O segundo filtro simétrico que pode ser utilizado é o CF Ao fazer essa escolha será habilitada a opção de estacionáriedade dos dados além do método de diferenciação da série8 Ao selecionar a opção I0 há três alternativas para se proceder à diferenciação dos dados Por outro lado ao 8Para maiores esclarecimentos sobre o grau de integração de uma série de dados o leitor deve consultar a seção sobre Raiz Unitária 53 Ciclo 103 escolher que o processo é um random walk há uma opção adicional Assuma por hora que a série qx é um processo I0 e que vamos usar o método Remove linear trend Mantenha todas as demais opções como anteriormente ou seja Leadlags igual a 12 a mesma periodicidade para o ciclo e dê nomes para as variáveis como mostra a figura 525a A forma de cálculo de qxcfciclo é a mesma de antes usando a matriz de pesos a Opções filtro CF simétrico b Ciclo comparado pelos dois métodos Figura 525 Filtro CF simétrico aplicado a qx No geral os resultados são muito parecidos A matriz de pesos em pouco difere não foi aqui mostrada mas o leitor pode comparar bppeso com cfpeso e como mostrado na figura 525b o componente cíclico resultante da série filtrada também é similar O ganho maior no BandPass filter está em usar o método assimétrico Nesse caso não perdemos informações com o uso de leadlags Aliás como pode ser visto a opção do terceiro filtro não habilita a escolha do número de leadlags Escolha a opção Full sample asymmetric mantenha a periodicidade cíclica de 6 e 32 I0 e use o método remove linear trend Escolha nomes diferentes para os resultados para não coincidir com as estimativas anteriores Tal procedimento é mostrado na figura 526 A determinação da periodicidade cíclica pode variar de acordo com a percepção sobre a duração do ciclo O menor valor a ser especificado em Low é 2 o que irá produzir uma estimativa de ciclo bem errática Obviamente a duração máxima em High tem que ter um valor maior que o especificado em Low Outra opção que precisa ser avaliada em Stationarity Assumption é se a série em questão que estamos extraindo o ciclo é estacionária I0 ou então possui raiz unitária I1 e por fim temse que especificar o método para eliminar essa não estacionariedade Figura 526 Filtro CF assimétrico aplicado a qx 104 Capítulo 5 Séries de tempo Note que o ciclo agora é estimado para todo o conjunto de dados Além disso o leitor poderá ver que ao analisar a matriz de pesos a mesma é de dimensão 74x74 refletindo o fato de que os pesos variam no tempo Para encontrar o resultado do primeiro trimestre usase o primeiro vetor linha multiplicado pelo vetor coluna de qx Isso irá produzir como resultado a primeira informação do ciclo no nosso exemplo a série qxcfciclo2 Na linha 1 as primeiras 13 informações de pesos são idênticas às encontradas pelo método CF simétrico Na figura 527 comparamos os resultados da estimativa pelo filtro HP com a obtida pelo método CF assimétrico Note que esse tem uma estimativa de ciclo mais suavizada Figura 527 Ciclos de qx comparados Programação 534 Podemos fazer a estimativa do filtro ChristianoFitzgerald assimétrico usando diversas combinações entre ciclo mínimo e máximo Nesse caso especificamos primeiro um escalar de valor 4 a duração mínima do ciclo A seguir usamos typecfasym e em low denominamos esse escalar fixando o máximo em 60 Depois especificamos que a série seja diferenciada para eliminar a tendência especificando uma ordem de integração iorder1 A seguir especificamos a série ajustada pelo ciclo a partir de noncycqxbpfciclo Podemos especificar a matriz de pesos do ciclo usando weightwqxbp A seguir colocamos o nome da série filtrada qxbpf Se o nome da série do ciclo qxbpf for omitido o EViews R irá criar uma série de nome BPFILTER01 scalar num4 for a qx y px pm qm abpftypecfasymlownumhigh60detrendtiorder1nogain noncycleacf abpf numnum1 next 533 O Filtro CorbaeOuliaris As técnicas de extração do componente cíclico são divididas de forma geral em dois grupos ou no domínio do tempo ou da frequência Esse é particularmente importante na análise de séries econômicas devido a nãoestacionariedade ver Corbae e Ouliaris 2006 Após feita a instalação do addin fdfilter no EViews podemos usar esse filtro veja o capítulo que fala sobre addin Abra a série mensal do ibcbr em procaddins selecione corbaeouliaris FDfilter A Figura 528a mostra 54 Autocorrelação Correlograma 105 a caixa de diálogo onde devemos preencher com os valores a Caixa de diálogo do addin b Estimativa do ciclo com o filtro CorbaeOuliaris Figura 528 Filtro CorbaeOuliaris Programação 535 Uma vez que o addin FDfilter esteja instalado no EViews R é possível aplicar o filtro a partir do menu ou então a partir de um comando da subrotina Para o exemplo do IBCBR teremos call ideal bandpass ibcbr 00625 0033 ibcbrcicle data inicial data final Caso tenha várias séries de dados podemos usar um loop para aplicar o filtro a todas elas For a a1 a2 a3 name ciclo a call ideal bandpass a 0062 0333 name 2003MOI 2016MI next Como primeira opção colocamos a extensão do nome da série do ciclo que será calculada Nesse exemplo usamos FD As duas opções seguintes se referem aos valores dos períodos iniciais e finais ou fração de Π que será usado na determinação da frequência do ciclo Como default usamos 00625 e 03333 Por fim especifique o período de análise dos dados Como queremos uma estimativa para todo o período escrevemos all A Figura 528b mostra a estimativa do ciclo do IBCBr 54 Autocorrelação Correlograma O conceito de autocorrelação será bem útil quando analisarmos os modelos ARIMA mas já podemos começar a compreender algumas características e implicações da autocorrelação Como o próprio nome diz a autocorrelação descreve a relação de correlação que uma variável aleatória o PIB por exemplo tem com ela mesma no passado Em séries de tempo de economia é muito comum vermos a presença de autocorrelação bem como em séries financeiras Imagine a taxa de câmbio hoje Seu resultado será altamente correlacionado com o valor da taxa de câmbio ontem Quanto maior for essa relação maior será a medida de autocorrelação Há formas de ver a presença ou não de autocorrelação em uma série de dados sendo a mais comum fazer o correlograma Com uma série de tempo aberta qx por exemplo selecione ViewCorrelogram A janela de opções conforme figura 529a possibilita analisarmos a série em nível e primeira ou segunda diferença como adicionar o número de defasagens Um correlograma em nível avalia a série original Quando selecionamos 1st difference aplicamos o conceito de autocorrelação para a série de dados 106 Capítulo 5 Séries de tempo qx ou seja na primeira diferença da variável em questão A opção dos lags a incluir é apenas para o teste e a visualização gráfica O programa nos retorna dois gráficos de barras correlogramas e quatro estatísticas vinculadas autocorrelação AC autocorrelação parcial PAC estatística Q e a probabilidade conforme figura 529b a Opções b Correlograma de qx Figura 529 Correlograma A função de autocorrelação AC mensura a correlação de uma variável e suas defasagens Seu cálculo é obtido através da divisão da covariância com a defasagem k pela variância da amostra Ligeiramente diferente da definição teórica o EViews R estima autocorrelação pela seguinte fórmula tk n tk1xt xxtk x n t1xt x2 tal que quando k 1 estamos medindo a autocorrelação de ordem um e assim sucessivamente Já a autocorrelação parcial PAC calcula a autocorrelação da defasagem k descontando o poder preditivo das defasagens anteriores t1t2tk1 Os resultados de AC e PAC são apresentados de forma gráfica nos dois correlogramas onde a linha vertical continua indica o zero e as duas linhas pontilhadas aproximadamente dois desvios padrão computados por 2n Ou seja para que o coeficiente tk seja significativamente diferente de zero ao nível de significância de aproximadamente 5 este não pode estar entre as linhas pontilhadas No exemplo apresentado na figura 529b qx tem 74 observações então 2 74 02325 Logo para que o coeficiente seja significativo e estatisticamente diferente de zero não pode pertencer ao intervalo de confiança de 95 Prob ˆtk 02325 tk ˆtk 02325 095 Além de calcularmos a significância estatística para determinada defasagem individualmente podemos utilizar estatística Q de LjungBox QStat para uma hipótese conjunta Esse teste estatístico avalia a autocorrelação na defasagem k sob a hipótese nula de que todos coeficientes t1t2tk são simultaneamente iguais a zero A fórmula da estatística Q é dada por QLB TT 2 k j1 ˆτ2 j T j 54 Autocorrelação Correlograma 107 Assim supondo a avaliação da autocorrelação até k1 teremos QLB 7476 1 j1 09362 741 6754 Além disso a estatística Q e seu pvalor apresentados nas últimas duas colunas do correlograma são comumente utilizados para testar se a série é ruído branco Cabe destacar nesse caso que considerando uma série qualquer yt εt tal que o choque εt não é serialmente correlacionado esse processo com média zero e variância constante será denominado ruído branco Adicionalmente se εt e consequentemente yt forem serialmente independentes podemos dizer que y é ruído branco independente escrevendo yt iid0σ2 ou seja y é independentemente e identicamente distribuído com média zero e variância constante O correlograma também nos permite algumas considerações sobre modelagem das séries de tempo Se a autocorrelação apresentar coeficientes significativos que diminuem lentamente de forma geométrica e a autocorrelação parcial for para zero depois da defasagem p podemos evidenciar que a série obedece um processo autorregressivo puro de ordem p ARp Como o correlograma na figura 529b que nos sugeri que a série qx segue um processo autorregressivo de primeira ordem AR1 Enquanto processos puros de médias moveis MA apresentam autocorrelação próxima a zero depois de algumas defasagens junto de autocorrelação parcial persistente caindo gradualmente para zero conforme figura 530a Da mesma forma um correlograma que apresente um padrão sazonal de movimentos recorrentes como ondas sugeri a presença de sazonalidade figura 530b Vale ressaltar o padrão de séries nãoestacionárias mostram coeficientes de autocorrelação altos e persistentes em diversas defasagens como qx na figura 529b a MA4 b AR4 com sazonalidade Figura 530 Correlograma Programação 541 A programação para acessarmos o correlograma é dada pelo comando correlkonde k é a quantidade de defasagens a serem testadas Abaixo executamos o correlo grama na variável qx com 21 defasagens qxcorrel21 Também podemos criar para diversas séries de tempo um loop que salve as informações estatísti 108 Capítulo 5 Séries de tempo cas do correlograma em uma tabela de resumo scalar k 25 table corres j0 for a qx y px for i 1 to k freezemode overwrite temp acorrelk corres11j a corres21j k corres22j temp54 corres23j temp55 corres24j temp56 corres25j temp57 corres2i1j temp6i3 corres2i2j temp6i4 corres2i3j temp6i5 corres2i4j temp6i6 corres2i5j temp6i7 next j j5 next Note que inicialmente criamos o escalar k que recebe o número de defasagens a tabela resumo corres que receberá as estatísticas calculadas e a variável de contagem j que organizará as colunas em corres quando houver mais de uma série de tempo Então é aplicado o comando correl em qxy epx e guardamos as informação dentro da tabela temporária temp usando o comando freeze Para preenchermos corres com os dados contidos em temp 55 Análise Espectral A análise espectral tem muita aplicação na física química e demais ciências Na economia sua importância está principalmente na explicação das informações de frequência que podemos extrair e que acaba por revelar características cíclicas Toda série de tempo pode ser expressa a partir da soma de senos e cossenos que oscilam de acordo com uma determinada frequência O desafio é poder identificar essas frequências e isso pode ser feito via estimativa do periodograma Esse é conhecido como densidade espectral e relaciona as variabilidades do conjunto de dados com as frequências ao passo que na análise de série de tempo as variabilidades são relacionadas com o domínio do tempo Um dos pontos importantes é utilizar séries de dados que sejam estacionárias Sendo assim podemos afirmar que a densidade espectral é uma representação das características da série de tempo mas no domínio da frequência O canal para se fazer essa relação entre uma série de tempo expressa no domínio do tempo com uma que é expressa no domínio da frequência é a transformada de Fourier Na literatura da área são disponíveis diversos métodos paramétricos e nãoparamétricos para estimar a densidade espectral de um conjunto de dados Diversos pontos emergem a partir dessa relação e estão relacionados principalmente a variância dos dados Primeiro podemos citar que a integral da densidade espectral é igual a variância da série de dados Na verdade o espectro de uma série de tempo pode ser visto como a distribuição de variância dessa série como uma função da frequência Em segundo lugar que há uma relação entre o espectro que contém informações do conjunto de dados no domínio da frequência com a função de autocovariância que contém informações no domínio do tempo 55 Análise Espectral 109 Figura 531 Opções da Análise Espectral Uma vez identificada a densidade espectral podemos avaliar os picos de frequência e os períodos associados a ele Suponha uma série de dados mensal e que na análise espectral tenhase encontrado por exemplo um pico na frequência a Nesse caso o período associado a esse ciclo medido em meses é dado por 1a É normal termos mais de um pico na densidade espectral e veja que quanto maior for o valor de a menor será o período em tempo associado a essa frequência O Eviews faz análise espectral mas é necessário instalar o addin Spectral Analysis Vejamos como é a aplicação desse método a série mensal IBCBR do Banco Central do Brasil sem ajuste sazonal Lembrese que essa análise deve ser feita com a série estacionária Como a nossa série possui tendência primeiro temos que eliminar essa tendência o que é feito a partir de uma regressão simples tendo como variável independente o tempo e uma constante A seguir analisamos os resíduos dessa equação Com a série residuo aberta vá em ProcAddinsSpectral Analysis A janela que será aberta é como mostrado na figura 531 Note que há várias opções de escolha para o processo de alisamento do periodograma Vamos usar como default o ponto 20 como de truncagem e por enquanto não vamos selecionar as demais opções apenas deixe output table Após clicar em ok é perguntado se queremos gerar o ciclo ótimo Clique novamente em ok A seguir é aberta uma janela que pergunta o pvalor e o número de ciclos Digite 005 Deixe selecionada a opção weighted cycle e selecione individualcycles Clique em ok Diversos resultados são reportados mas vamos olhar primeiro para o gráfico do periodograma como mostrado na figura 532 Note que o mesmo não foi alisado e apresenta diversos picos Cada um desses picos na respectiva frequência possui um ciclo no tempo Mas tal como colocado no gráfico não seria possível identificar essas frequências Felizmente esses resultados são salvos em uma tabela no workfile de nome data Abra e poderá ver que o mesmo possui quatro colunas como mostrado na figura 533 A segunda coluna corresponde ao eixo horizontal do gráfico do periodograma e traz a relação ciclotempo A última coluna de nome periodogram corresponde ao eixo vertical do gráfico e permite identificar os picos da nossa densidade espectral Veja por exemplo que a primeira frequência de valor 0006369 tem o maior pico encontrado de valor 465 A terceira coluna nos mostra a relação tempociclo ou seja o período de ocorrência do ciclo dado por 1frequência Sendo assim para a frequência 0006369 temos um período cíclico de 157 meses Note que há um pico no periodograma de valor 289 associado com a frequência 0025478 e que gera um período de 39 meses Há outro pico na frequência 0082803 e que gera um período cíclico de 12 meses revelando a existência de sazonalidade no nosso banco de dados 110 Capítulo 5 Séries de tempo Figura 532 Periodograma da série residuo Figura 533 Data Alternativamente ao uso do periodograma para encontrar a densidade espectral podemos usar os demais filtros O gráfico 534a mostra a estimativa da densidade espectral usando o método de Hamming Note que o resultado é mais suave que o apontado pelo periodograma e sinaliza para a presença dos mesmos picos identificados anteriormente No gráfico 534b estão todas as estimativas de densidade Para fazer esse gráfico primeiro faça a estimativa considerando cada um dos métodos disponíveis A seguir monte um grupo com todas as séries denominadas de spectral densitye que estão na última coluna da tabela que é salva Por fim selecione ViewGraphXY line e do lado direito em details onde está multiple graphs escolha single graph First vs All Vejamos agora como pode ser obtido o ciclo Para esse exercício vamos primeiro extrair o ciclo pelo filtro HP Isso irá produzir uma série estacionária Abra a série do ciclo resultante da aplicação do filtro HP e vamos usar o addin de Spectral Analysis selecionando o filtro de Bartlett e selecione as opções como mostrado na figura 535a Na opção do filtro spectral vamos selecionar um teste a 005 e ciclos individuais tal como mostrado no gráfico 535b Note que há a opção de Cycle Sum Essa é a soma dos ciclos individuais pedidos acima O número de ciclos individuais que são gerados são quatro sfw13 sfw26 sfw39 e sfw4 Se somarmos os quatro teremos como resultante o ciclo estimado para a nossa série No conjunto de gráficos 536a estão os ciclos individuais estimados e no gráfico 536b está a soma dos quatro ciclos individuais 56 Exercícios 111 a Hamming b Comparativo de Densidade Espectral Figura 534 Estimativa Espectral a Opções de Filtro b Opções do Ciclo Figura 535 Análise Espectral a Ciclos Individuais b Ciclos da série IBCBR Figura 536 Ciclos estimados 56 Exercícios Exercício 51 Aplique os quatro diferentes métodos de dessazonalização na série qx agrupe em um gráfico e discuta as diferenças 112 Capítulo 5 Séries de tempo Exercício 52 Aplique os cinco diferentes métodos de alisamento exponencial na série y e discuta as diferenças de resultado entre eles Exercício 53 Utilize os diferentes métodos de alisamento exponencial para prever 6 trimestres de px Exercício 54 Monte um gráfico de y que compare os três diferentes métodos da opção detren ding method para o filtro CF simétrico em I0 Exercício 55 Monte um gráfico de y que compare os três diferentes métodos da opção detren ding method para o filtro CF assimétrico I0 Exercício 56 Monte um gráfico de y que compare os quatro diferentes métodos da opção detrending method para o filtro CF assimétrico I1 Exercício 57 Extraia o ciclo de y pelo método de dupla filtragem HP utilizado pela OECD2008 e compare aos resultados encontrados com uma única filtragem Exercício 58 Compare as melhores estimativas para y encontradas nos exercícios 55 56 e 57 Exercício 59 Quais são as características de uma série de ruído branco E por que a estatística Q é útil para identificála Exercício 510 Crie uma série de ruído branco e prove as afirmações feitas no exercício 59 utilizando o correlograma e a estatística Q Quais são as características de uma série de nãoestacionária E como podemos utilizar a autocor relação para inicialmente identificála Exercício 511 Por que consideramos o calculo de autocorrelação feito pelo EViews R diferente da definição teórica Exercício 512 Calcule o correlograma de y para 30 defasagens e indique quais autocorrelações são estatisticamente diferentes de zero ao nível de significância de 5 Exercício 513 Calcule o correlograma de y para 30 defasagens e indique quais autocorrelações são estatisticamente diferentes de zero ao nível de significância de 10 57 Bibliografia Christiano L J e Fitzgerald T J 2003 The Band Pass Filter International Economic Review 44 435465 Corbae Dean e Ouliaris Sam 2006 Extracting Cycles from Nonstationary Data In Dean 57 Bibliografia 113 Corbae et al eds Econometric Theory and Practice Cambridge Cambridge University Press pp 167177 Gyomai G e Guidetti E 2008 OECD system of composite leading indicators Organisa tion for Economic CoOperation and Development OECD Disponível em httpwwwoecdorgstdleadingindicators41629509pdf Hodrick R J e Prescott E C 1997 Postwar US business cycles an empirical investiga tion Journal of Money credit and Banking 116 Hylleberg Svend 1986 Seasonality in Regression Morais IAC Bertoldi A Anjos ATM 2010 Um modelo nãolinear para as exporta ções de borracha Revista Sober Nilsson R e Gyomai G 2011 Cycle extraction A comparison of the PhaseAverage Trend method the HodrickPrescott and ChristianoFitzgerald filters 6 Regressão Simples O primeiro contato com modelos de econometria começa agora Entretanto esse livro não tem a intenção de esgotar o assunto do ponto de vista metodológico e sim com aplicações Nesse sentido se o leitor precisar de fundamento s e discussões técnicas sobre o tema diversos livros técnicos podem se consultados O procedimento aqui é simples Começamos com a estimação de um modelo com apenas uma variável independente e explicamos todas as opções de testes e identificação de problemas que por ventura possam aparecer e que estão disponíveis noEViews R Entendido esse ponto o capítulo seguinte passa a explicar um modelo de regressão múltipla O primeiro passo na estimativa de um modelo de regressão é definir as variáveis dependentes e independentes No nosso exemplo a ideia é trabalhar com uma curva de demanda aplicada a exportação de móveis qx e que pode ser explicada pela variável renda yw que representa o número índice do PIB mundial Vejamos como estimar uma regressão simples Abra o arquivo do EViews R regressão simpleswf1 Há um conjunto de variáveis mas usaremos apenas duas nesse momento Nesse caso vamos rodar a seguinte equação de regressão 1 qxt α1 β1ywt εt Há três caminhos possíveis no EViews R para se estimar uma equação O mais simples deles é selecionar cada uma das variáveis a constar nessa equação sempre selecionando em primeiro lugar a variável dependente e a seguir clicar com o botão direito e clicar em Openas Equation A segunda maneira é ir em QuickEstimate Equation e escrever o formato da equação Esses dois métodos são mostrados na figura 61 Note a diferença sutil que existe podemos escrever nossa equação de duas maneiras Na primeira opção aparece apenas o nome das variáveis sempre seguindo a ordem da dependente como a inicial No segundo método é necessário escrever a equação onde o termo c1 e c2 representam os coeficientes a serem estimados 1Note que há dados com e sem ajuste sazonal onde esses são representados por sa Aqui foi usado o método X12 Desse ponto em diante usaremos apenas os dados com ajuste sazonal 116 Capítulo 6 Regressão Simples Figura 61 Como Estimar Uma Equação no EViews R Logo abaixo do campo onde se especifica as equações na figura 61 está o método de estimação que no nosso caso é o LS Least Squares também conhecido como mínimos quadrados e o Sample que é o período amostral onde serão feitas as estimativas Clique em OK Qualquer que seja a forma utilizada para rodar essa regressão o resultado será o mesmo como mostrado na figura 62 Diversas estatísticas podem ser visualizadas Na primeira linha está descrita a variável dependente seguido do método de estimação a data em que foi feita essa estimativaútilpara ver se os alunos fizeram o exercício na data certa o período utilizado para gerar os resultados e o total de dados Note que são usados 187 dados que vão de janeiro de 2000 a julho de 2015 Logo abaixo em uma tabela são mostrados os resultados da nossa equação e que normalmente são assim representados em livros e artigos de econometria qxt 18389 6616 0647 0063ywt εt onde entre parênteses ficam descritos os valores dos respectivos desviopadrão A terceira forma de estimar uma equação no eviews é via programação e pode ser visualizado no box 601 Programação 601 No caso da programação há duas formas de se rodar uma regressão Na primeira escrevemos o método que no presente caso é dado pelo comando ls que signi fica Least Square Mínimos Quadrados seguindo pela ordem das variáveis onde primeiro é colocada a dependente Há uma lista de opções que podem ser colocadas depois do termo ls consulte o manual Antes de qualquer coisa o melhor a fazer é especificar o intervalo de dados que estamos trabalhando que no presente exemplo é de 2000M1 a 2015M7 smpl 2000M1 2015M7 ls qxsa ywsa c A segunda maneira seria escrever o comando equation seguido do nome a ser dado para a equação e da lista das variáveis Há algumas vantagens nesse segundo método que vão ficar mais claras mais a frente Uma delas é o fato de já especificarmos o nome da nossa regressão como eq1 117 Figura 62 Resultado da Regressão Simples smpl 2000M1 2015M7 equation eq1ls qxsa ywsa c Programação 602 O arquivo regressão simpleswf1 também contém as séreis originais sem ajuste sazonal Podemos adicionar os comandos aprendidos no capítulo anterior para dessazonalizar as séries pelo método X12 multiplicativo e então rodar a regressão simples pelo método dos mínimos quadrados qxx12modem qx ywx12modem yw smpl 2000M1 2015M7 equation eq1ls qxsa ywsa c Os resultados para a nossa primeira estimativa de regressão simples podem ser visualizados na figura 62 Após os valores dos coeficientes parâmetros estão os desviospadrão StdError e na coluna seguinte da tabela está a estatística t tstatistic e o pvalor Prob A primeira é utilizada para testar se o seu respectivo coeficiente é estatísticamente diferente de zero a partir da fórmula t x µ σ Por exemplo podemos testar se α1 0 que é a nossa constante Nesse caso a estatística t é dada por t α1 0 σα 183890 6616 2779 O mesmo podendo ser feito para testar se β1 0 onde t β1 0 σβ 06470 0063 10216 118 Capítulo 6 Regressão Simples Por fim o resultado do Prob irá indicar se aceitamos ou rejeitamos a hipótese nula de que o coeficiente em questão é estatísticamente igual a zero O Prob aqui é o mesmo que o Pvalor Destacase que para esse teste estamos assumindo uma distribuição tstudent e que é bicaudal No nosso exemplo tanto para o coeficiente da constante quanto para o da renda rejeitamos a hipótese nula de que são estatísticamente iguais a zero O valor Prob também pode ser encontrado a partir da função tdist Nesse caso como o resultado é um número criamos primeiro um escalar e especificamos os valores para a função tdist a partir de scalar pvalortdist10216187 O valor 10216 é o valor da estatística t e 187 representa o número de graus de liberdade do teste equivalente ao número de observações utilizadas após o ajuste veja no início dos resultados na fig 62 Programação 603 Dando sequencia à nossa regressão simples os comandos abaixo podem ser usados para testar se o parâmetro da elasticidaderenda é igual a zero β1 0 Nesse caso primeiro especificamos a estatística t e armazenamos a mesma em um escalar de nomevalort salvamos o número de observações no escalar obs e a seguir aplicamos o teste para encontrar seu respectivo pvalor e armazenar o resultado em um escalar de nome pvalor smpl 2000M1 2015M7 equation eq1ls qxsa ywsa c scalar valorteq1tstats1 scalar obseq1regobs scalar pvalortdistvalortobs Além desses resultados básicos há diversos outros que são mostrados logo abaixo e que servem para avaliar o modelo em questão Por exemplo no caso do Rsquared conhecido como R2 ou R2 o valor de 0360 deve ser interpretado como cerca de 36 das variações em qx são explicadas por variações em yw Alguns costumam afirmar que esse resultado na verdade estaria se referindo ao grau de explicação do modelo o que não deixa de ser verdade A fórmula é dada por R2 1 T t1 ˆεt 2 T t1Yt Y2 O termo T t1 ˆεt 2 é denominado de soma do quadrado dos resíduos e que está mostrado na tabela como Sum squared resid T t1 ˆεt 2 3643821 Esse resultado pode ser feito manualmente Primeiro pegue todos os resíduos da regressão e eleve cada um deles ao quadrado e depois some todos Esse termo também poderia ser expresso da seguinte forma T t1 ˆε ε2 Onde ε é a média dos resíduos Porém por definição a média dos resíduos é igual a zero uma vez que a reta de regressão foi estimada de forma a passar exatamente na média de todos os pontos Sendo assim tudo o que se erra na estimativa para cima também se erra para baixo Ou seja teremos valores positivos e negativos que se anulam e sua média daria zero Sendo assim acabamos por fazer T t1 ˆε ε2 T t1 ˆε 02 T t1 ˆε2 Caso queira verificar a série de resíduoscom a equação aberta vá em ViewActualFittedResidual Ou então se quiser gerar a série dos resíduos vá emProcMake Residual Series e escolha um nome para essa série 119 Programação 604 Uma alternativa interessante é rodar várias regressões com uma janela fixa de por exemplo 60 dados ou seja 5 anos Nesse caso iniciamos uma regressão em 2000M1 que vai até 2004M12 A seguir a segunda regressão vai de 2000M2 até 2005M1 e assim sucessivamente Isso irá representar 99 regressões no total com a última indo de 2008M4 a 2013M3 Para tanto podemos declarar um loop usando o comando for for i1 to 99 smpl 2000M1i 2004M12i equation eq2ls qxsa ywsa c next Porém isso irá gerar apenas um resultado para as nossas estimativas qual seja a última regressão Nesse caso não iríamos saber como evoluiu por exemplo ao longo dessas 99 regressões o valor do coeficiente da elasticidade rendademanda O ideal seria comparar essa estimativa com a que envolve todos os dados como feito anteriormente em eq1 Para tanto podemos usar o comando matrix para criar uma matriz de 100 linhas de nome coef e depois pedir para salvar esse coeficiente nessa matriz smpl 2000M1 2015M7 equation eq1ls qxsa ywsa c matrix100 coef coef100eq1coefs1 for i1 to 99 smpl 2000M1i 2004M12i equation eq2ls qxsa ywsa c coefieq2coefs1 next Como último complemento note que após fazer isso seu conjunto de dados amostral se reduziu para 60 dados mostrado na parte superior do workfile em sample Para fazer o banco de dados contemplarem todos os dados escreva no final do programa smpl all A figura 63a mostra como são os resíduos e a 63b a distribuição dos mesmos Veja que a média é zero satisfazendo a premissa do modelo de regressão Eε 0 Mas não possuem uma distribuição normal sinalizando que podemos melhorar essa estimativa no futuro 120 Capítulo 6 Regressão Simples a Resíduos b Distribuição dos Resíduos Figura 63 Resíduos da Regressão Simples A seguir o termo T t1Yt Y2 representa o quanto a variável dependente desvia em relação à sua média O termo é elevado ao quadrado exatamente para evitar que desvios positivos sejam anulados por desvios negativos A média da variável dependente é mostrada na tabela como Mean dependent var e para o nosso exemplo tem valor qxt 85168Para encontrar esse valor podemos usar o comando scalar media eq1meandep Isso também pode ser feito manualmente onde teremos T t1Yt Y2 85168 Por fim no nosso exemplo basta encontrar R2 1 3643821 56994139 0360 Veja que independente do modelo que for utilizado o denominador da equação acima nunca se modifica Porém o numerador ou seja o desvio dos erros em relação a sua média que é igual a zero será diferente para cada modelo Ou seja tem modelos que erram mais que outros Dessa forma quanto maior for o numerador relativamente ao resultado do denominador mais o modelo estará errando e com isso menor será o valor de R2 Um modelo que tem erro próximo a zero irá produzir um R2 próximo ao valor 1 Logo abaixo dessa estatística há outra que deve ser considerada mais útil é a Adjusted R squared Nessa o valor do R2 é corrigido pelo número de coeficientes que estão sendo utilizadas no modelo Sua fórmula geral é dada por R2 11R2T 1 T k Onde T é o número de observações utilizadas e k é o número de coeficientes No nosso exemplo temos 187 dados e dois coeficientes um para a constante e outro para a variável independente Sendo assim R2 1103601871 1872 0357 Porque utilizar o R2 e não o R2 Em regressão simples os dois valores são bem parecidos pois termos no máximo dois coeficientes a utilizar a constante e o β Mas em modelos de regressão múltipla onde k é maior as estimativas podem diferir de forma significativa Programação 605 Seguindo no exemplo das nossas 100 regressões podemos pedir agora para que seja criada uma série com todos os valores dos R2 Isso será útil para identificar em qual sequência de regressões obtemos a melhor estimativa Assim criamos mais uma matriz só que agora de nome explicado e pedimos para salvar os valores nela Note que os valores da regressão com o conjunto total dos dados ficam na última linha dessa matriz 122 Capítulo 6 Regressão Simples Para o nosso exemplo teremos F 0360 21 1872 10360 104364 E com base no pvalor podemos rejeitar a hipótese nula de que β1 0O Prob pode ser encon trado usando scalar probf 1 fdist1043641185 E usando scalar f eq1f encontramos o teste F Programação 606 O teste F pode ser feito via programação Primeiro criamos o scalar de nome f que calcula o valor da estatística A seguir criamos o scalar de nome testef para especificar o pvalor dessa estatística que tem k1 graus de liberdade no numerador e Tk graus de liberdade no denominador scalar f eq1r2eq1nperseq1ncoefeq1ncoef11eq1r2 scalar testef1cfdistfeq1ncoef1eq1nperseq1ncoef Além da estatística R2 muito utilizada para comparar modelos o EViews R fornece outras três que são bem mais eficientes e que são conhecidas como critérios de comparação Em ambas quanto menor o valor em módulo melhor A primeira delas é o critério de Akaike De forma geral sua fórmula é dada por AIC 2 T k l Onde l é o log da verossimilhança Usando os dados do nosso exemplo vemos que AIC 2 1872758298 8131 Esse valor também pode ser encontrado usando scalar aic eq1aic A segunda estatística é o critério de informação de Schwarz A vantagem desse método em relação ao de AIC é que agora é aplicada uma espécie de penalidade para o uso de coeficientes adicionais SC 1 T klnT2l O comando no EViews R que retorna essa estatística é dado por scalar sc eq1schwarz Para os dados do nosso exemplo teremos SC 1 1872ln1872758298 8166 Por fim também pode ser usado o critério de comparação de HannanQuinn que adiciona mais uma penalidade HQ 2 T klnlnTl Usando os dados do nosso exemplo encontramos HQ 2 1872lnln187758298 8145 Para encontrar essa estatística podemos usar o comando scalar hq eq1hq Um ponto importante a destacar é que essas três estatísticas não são comparáveis entre si Ou seja de posse de diferentes modelos comparamos o AIC do modelo 1 com o AIC dos demais modelos Não usamos a comparação entre AIC e HQ por exemplo 123 Programação 607 Ao rodar as 100 regressões podemos estar interessados em criar uma série de dados que mostre a evolução dos critérios de comparação Como iremos usar os três critérios a nova matriz que usaremos de nome criterio tem que ter 3 colunas Criamos a mesma e salvamos os valores desses critérios para a eq1 A seguir ao rodar o loop fazemos o mesmo para cada uma das outras 99 regressões smpl 2000M1 2015M7 equation eq1ls qxsa ywsa c matrix100 coef coef100eq1coefs1 matrix100 explicado explicado100eq1r2 matrix1003 criterio criterio1001eq1aic criterio1002eq1hq criterio1003eq1schwarz for i1 to 99 smpl 2000M1i 2004M12i equation eq2ls qxsa ywsa c coefieq2coefs1 explicadoieq2r2 criterioi1eq2aic criterioi2eq2hq criterioi3eq2schwarz next smpl all Até esse momento vimos como avaliar os resultados das estatísticas do modelo de regressão e como as mesmas são calculadas A figura 64 traz um resumo das funções utilizadas até o presente momento Esses comandos devem ser aplicadas em uma equação Por exemplo para determinar a número de observações do modelo de de nome eq1 é utilizado o comando eq1regobs Figura 64 Comandos para Resultados do Modelo de Regressão Após avaliar esses resultados podemos ver graficamente como o nosso modelo para o conjunto de dados se comportou Para tal com a janela de resultados da nossa regressão aberta 124 Capítulo 6 Regressão Simples clique em Resids O mesmo irá mostrar o gráfico conforme figura 65 Figura 65 Resultados do Modelo de Regressão Tal como citado na legenda do gráfico a linha vermelha mostra os verdadeiros valores da variável dependente no nosso caso qx A linha verde são as estimativas obtidas a partir do modelo de regressão E por fim a linha azul é a série de resíduos que nada mais é que a diferença entre o verdadeiro valor e o estimado Note que o nosso modelo não é tão bom para reproduzir o comportamento de qx em determinados momentos errando muito Nesse momento o leitor pode estar se perguntando como é feita a estimativa dos valores para cada período Vamos recordar a equação encontrada qxt 18389 6616 0647 0063ywt εt Com base nela podemos determinar qualquer valor de qx ao longo do tempo Por exemplo a estimativa para janeiro de 2000 pode ser dada a partir da substituição do respectivo valor da variável independente naquela data Ou seja olhando a série de ywt ajustada sazonalmente vemos que em janeiro de 2000 temse ywjan2000 76333 Sendo assim podemos encontrar o valor de qx jan2000 fazendo qxjan2000 18389064776333 67850 Esse procedimento pode ser repetido para qualquer mês que se queira avaliar modificando apenas o respectivo valor de ywt e mantendo fixo o coeficiente da constante 18389 e da inclinação 0647 Após fazer a regressão é necessário proceder a uma investigação detalhada sobre os resultados Há no EViews R 3 blocos de testes que são explorados nas seções a seguir Primeiro é feita a investigação sobre os coeficientes A seguir sobre os resíduos e por fim sobre a estabilidade do modelo 61 Diagnóstico Dos Coeficientes Alguns estatisticas podem ser avaliadas para testar a robustês dos coeficientes Com uma equação aberta o diagnostico dos coeficientes pode ser acessado em ViewCoefficient Diagnostics Note que são nove diferentes tipos de testes que avaliaremos na sequência 61 Diagnóstico Dos Coeficientes 125 611 Scaled Coefficients Essa opção só funciona se a equação for estimada a partir de um comando de lista Lembrese disso pois vários outros testes exigem esse formato Como é o modelo estimado em lista Você terá que ao abrir a janela de estimativa da equação escrever as variáveis em ordem No nosso exemplo colocamos qxsa ywsa c Essa opção permite que se tenha uma visão da estimativa dos coeficientes os coeficientes padronizados e as elasticidades médias Para o nosso exemplo temos os resultados mostrados na figura 66 Figura 66 Scaled Coefficients Na primeira coluna estão as variáveis na segunda coluna o valor dos coeficientes estimados Na terceira coluna os coeficientes padronizados e por fim a estimativa das respectivas elasticidades no ponto médioEssa tabela também pode ser encontrada usando o comando eq1coefscale 612 Intervalo de Confiança Uma informação útil na interpretação dos resultados de uma regressão é usar o intervalo de confiança dos coeficientes Ao clicar em ViewCoefficient Diagnostics selecione Confidence Intervals Na janela que irá abrir podemos selecionar qualquer tamanho para o intervalo de confiança Por exemplo na figura 67 mostramos como seriam os resultados para estimativas com 95 de significância Figura 67 Intervalo de Confiança Note que ao não marcar a opção Arrange in pairs os resultados mostrados são mais fáceis de interpretar com o intervalo mínimo à esquerda no meio a média do coeficiente e depois o intervalo máximo A tabela com os instervalos de confiança pode ser obtida usando o comando eq1cintervalnopair 95 Para encontrar esses valores a um nível de significância de 95 e uma distribuição tstudent o resultado para o coeficiente de ywt será dado por 126 Capítulo 6 Regressão Simples yw1972σyw yw yw1972σyw 064719720063 yw 064719720063 0522 yw 0773 Com 99 de significância usamos yw2346σyw yw yw2346σyw 0482 yw 0813 O mesmo também pode ser feito para todos os demais coeficientes encontrados inclusive a constante A forma de interpretar esse resultado é Acreditase que o valor de ywt tem 95 de probabilidade de ficar entre 0522 e 0773 Programação 611 Para o nosso exemplo de 100 regressões podemos pedir para que seja criado a cada passo o intervalo de confiança para o primeiro coeficiente Nesse caso mudamos a matriz coef para 3 colunas onde na primeira temos o intervalo inferior a 95 na segunda coluna temos a estimativa do coeficiente na terceira coluna o intervalo superior a 95 Note que também é modificada a parte do loop smpl 2000M1 2015M7 equation eq1ls qxsa ywsa c matrix1003 coef coef1002eq1coefs1 coef1001eq1coefs11975eq1stderrs1 coef1003eq1coefs11975eq1stderrs1 for i1 to 99 smpl 2000M1i 2004M12i equation eq2ls qxsa ywsa c coefi2eq2coefs1 coefi1eq2coefs11972eq2stderrs1 coefi3eq2coefs11972eq2stderrs1 next smpl all Um ponto importante na construção do intervalo de confiança é definir o valor na curva de distribuição Nesse caso como usamos a curva tstudent devemos ter em mente que é necessário especificar também os graus de liberdade Sendo assim o valor de 1972 para 95 só é válido para 185 graus de liberdade do nosso modelo Nk onde N é o número de dados e k o número de coeficientes Se o número de dados ou o número de coeficientes variarem o valor para 95 não será mais 1972 Felizmente existe uma função no EViews R que permite encontrar esse ponto na curva de distribuição qtdistáreagraus de liberdade No nosso exemplo queremos saber o ponto para 95 Note que como temos uma curva bicaudal devemos especificar uma área divida em dois520025 sendo assim o valor de área0975 e os graus de liberdade185 Com isso podemos encontrar 1972 Programação 612 Encontrando o ponto na curva tstudent que especifica o intervalo de confiança de acordo com uma área e um valor dos graus de liberdade Para encontrar o ponto no qual a área interna é 90 e temos 185 graus de liberdade Coefficient Confidence Intervals Date 032816 Time 2224 Sample 1997M01 2015M09 Included observations 187 Variable 99 CI 95 CI 90 CI Coefficient 90 CI 95 CI 99 CI YWSA 0482887 0522833 0543113 0647967 0752821 0773101 0813047 C 1167956 5335207 7450861 1838936 2932786 3144351 3561076 scalar pontoqtdist095185 uma equação com apenas um parâmetro ou sejak21 Tendo a SSE21259347 Substituindo esses valores no teste F encontramos F 1259347364382 21 364382 1872 4543817 Para encontrar o pvalor desse teste é só fazer scalar pvalorf 1cfdist45438171185 O teste F é válido nesse caso apenas se assumirmos que os erros só independentes e com distribuição normal Assim pelo resultado do pvalor probability podemos dizer que o coeficiente de yw t é estatísticamente diferente de 2 Como pode ser visto na figura 69 Também podemos estar interessados em testar se os coeficientes do nosso modelo de regressão são estatisticamente iguais Nesse caso devemos mudar a hipótese nula para H0c1c2 ou então H0c1c20 Hac1c2 ou então Hac1c20 Para fazer isso no EViews vá em ViewCoefficient DiagnosticsWald Test e especifique tal como mostrado na figura 610 Pelo resultado do teste não é possível aceitar a hipótese nula Sendo assim os dois coeficientes são estatisticamente diferentes 61 Diagnóstico Dos Coeficientes 129 Figura 610 Teste de Wald c1c2 614 Confidence Ellipse Apesar do teste de Wald ser muito útil é normal que se queira testar mais de uma restrição como por exemplo se c10 e ao mesmo tempo se c20 Nesse caso o teste de Wald não é o mais apropriado e devemos recorrer a ViewCoefficient DiagnosticsConfidence Ellipse Isso pode ser feito apenas digitando os coeficientes omitindo o valor 0 Assim da forma como digitado c1 é o mesmo que testar se c10 Como também deixamos c2 estamos na verdade testando se c1c20 Em confidence levels selecione 095 95 Em individual intervals selecione Shade que é uma opção melhor de visualizar os resultados A seguir clique em Ok Figura 611 Confidence Ellipse Como mostra a figura 611 há um ponto central na cor vermelha Esse representa a es timativa dos dois coeficientes na equação de regressão com c1 0647 e c2 18389 Para conferir isso coloque o mouse sobre o ponto vermelho que esses valores irão aparecer A área que está na cor cinza representa o intervalo de confiança individual para um teste a 95 de significância ou seja para cada um dos coeficientes Note que para o coeficiente 130 Capítulo 6 Regressão Simples c1 esse é dado por 0522 c1 0773 no eixo horizontal Lembrese que encontramos esse valor do intervalo de confiança anteriormente Para a constante que é o segundo coefi ciente 5335 c2 31443 e está no eixo vertical Dentro do círculo está o resultado do teste conjunto No nosso caso testando se c1 c2 0 Esse gráfico pode ser gerado usando o seguinte comando no EViews R eq1cellipseindshade C10 C20 Figura 612 Confidence Levels 099 090 A análise pode ser feita tanto para um teste individual quanto para um teste conjunto Por exemplo se qui sermos testar a 95 se c1 12 vemos que esse valor está fora da área cinza do gráfico na linha hori zontal Sendo assim rejeitamos a hi pótese nula Para comprovar esse re sultado faça o teste de Wald para c1 Da mesma forma podemos testar se c2 25 Olhando no gráfico ve mos que esse valor está fora da área cinza não se esqueça de agora ver a linha vertical Dessa forma rejeita mos a hipótese nula Mas se queremos um teste con junto entre dois coeficientes como no nosso caso entre c1 e c2 deve mos olhar para a elipse Sempre que a combinação entre os dois pontos fi car dentro da elipse não é possível rejeitar a hipótese nula Uma outra opção interessante é colocar mais de um intervalo Na caixa de opção Confidence levels digite 099 090 e em Individual intervals a opção Line Tal como no comando eq1cellipseindline size 099 090 C10 C20 O resultado é como na mostrado na figura 612 615 Variance Inflation Factors Figura 613 Variance Inflation Factors Essa medida tem como objetivo apon tar o nível de colinearidade que existe entre as variáveis independentes do modelo Duas variáveis são ditas se rem colineares se todos os pontos es tiverem sob uma linha reta Nesse sentido se duas variáveis possuem determinado grau de colinearidade é natural esperar que uma esteja influ enciando a estimativa do coeficiente da outra O VIF permite identificar a presença de colinearidade na nossa equação dividindo a variância dos parâmetros em questão O resultado é apresentado de duas formas O VIF centrado é encontrado a partir da divisão da variância do coeficiente obtida no modelo completo no nosso caso 0004023 pela variância do mesmo coeficiente mas estimado a partir de um modelo que contenha apenas a constante e o coeficiente em questão Como temos um 61 Diagnóstico Dos Coeficientes 131 modelo de regressão simples esses dois valores são iguais resultando em um VIF centrado emyw de 1 Veja na figura 613 A segunda medida é o VIF nãocentrado Esse é dado pela razão da variância do coeficiente obtida a partir de um modelo completo 0004023 e um modelo sem constante faça uma regressão qxsa c2ywsa e encontrará β 082211 com variância de 000010028 Esse resultado pode ser acessado a partir de eq1varinf na janela de comando 616 Decomposição da Variância do Coeficiente Figura 614 Decomposição da Variância do Coeficiente Essa é uma ferramenta útil para de terminar a existência de uma possível colinearidade entre as variáveis inde pendentes O método se dá pela cons trução da matriz de covariância dos coeficientes a seguir são encontra dos os autovetores e por fim a pro porção da decomposição da variância Vejamos como interpretar esses resul tados para a regressão que estamos usando A figura mostra esses cál culos A última parte da tabela mostra a estimativa dos autovetores para os dois parâmetros do modelo para en tender isso consulte o capítulo sobre análise de componente principal A partir desses autovetores obtémse a proporção da decomposição da vari ância mostrado no meio da tabela Por fim é feito o cálculo do condi tion number Como regra se esse va lor é menor que 1900 0001 en tão há colinearidade Se for verifi cado na linha condition mais de um resultado menor que 0001 então é necessário avaliar a proporção da de composição da variância Veja que no nosso exemplo o condition apresenta um resultado menor que 0001 dado por 000000221 associado ao autovalor 4378 Isso sinalizaria que temos colinearidade Porém estamos trabalhando apenas com uma variável independente Esse tipo de investigação faz sentido em um modelo com mais de uma variável independente A tabela com os resultados apontados acima pode ser facilmente encontrada usando eq1cvardecomp 617 Variáveis Omitidas Frequentemente nos deparamos com a possibilidade de inserir uma nova variável no modelo de regressão como forma de melhorar o poder de explicação do mesmo Porém pode ocorrer de ao se fazer isso a contribuição não seja tão boa Nesse caso o ideal seria fazer um teste de variáveis omitidas Já fizemos o modelo de regressão mais básico onde 132 Capítulo 6 Regressão Simples qxt 18389 6616 0647 0063ywt εt Agora vamos investigar se a omissão por exemplo da variável pxt foi ruim para o modelo Nesse caso com a janela da equação acima aberta vá em ViewCoefficient DiagnosticsOmitted Variables Test A seguir digite o nome da variável em questão ela tem que existir noworkfile Os resultados são apresentados na figura 615 Ao final será possível identificar a regressão na forma qxt 21625 10096 1531 0185ywt 0428 0085 pxt εt Esse é o primeiro contato com a ideia de regressão múltipla O resultado dessa regressão aparece na parte final da tabela A estatística t e o Prob são avaliados como anteriormente Ou seja para poder fazer o teste primeiro é rodada uma regressão com a presença da variável que está supondo ter sido omitida Posteriormente são feitos os testes e apresentados no início da tabela O primeiro resultado para o teste tstatistic referese apenas à hipótese de o coeficiente da nova variável no nosso caso pxt ser estatísticamente igual a zero Pelo pvalor rejeitamos a hipótese nula e individualmente o coeficiente é diferente de zero Ou seja desse ponto de vista ele seria importante para o modelo Veja a primeira parte da tabela na figura 615 Aqui é desnecessário mostrar como chegamos no Probability pois já comentamos isso anteriormente Logo abaixo está o teste Fstatistic que representa o teste conjunto para ver se todas as variáveis são estatísticamente iguais a zero ou seja se c1 c2 c3 0 Porém esse teste é feito com base em um modelo restrito sem a variável pxt relativamente a um modelo nãorestrito com a presença da variável pxt O conjunto de informações em Ftest summary mostra os resultados para a soma do quadrado dos resíduos para os dois modelos o restritosem a variável px e o não restrito com a variável px Fstat SSRRSSRUR q SSRUR Tk Onde SSRR é a soma dos resíduos ao quadrado do modelo restrito SSRUR é a soma ao quadrado do modelo nãorestrito com todas as variáveisq é o número de restrições impostasT é o número de observações e k é o número de parâmetros presentes no modelo não restrito A hipótese nula é que a variável que foi omitida não é significativa para o modelo Substituindo esses valores encontramos Fstat 36438213203126 1 3203126 1873 25315 Assim o valor de F 253150000 sinaliza que rejeitamos a hipótese nula e os coeficientes não são iguais e dessa forma adicionar a variável pxt no modelo representa ganhos Note que o teste F para variáveis omitidas tem distribuição X2 q onde q é o número de restrições impostas Nesse caso podemos encontrar o pvalor diretamente no EViews R Programação 613 Podemos encontrar o pvalor do teste escrevendo um comando no EViews R Na barra de ferramentas clique em Window e depois selecione Command Essa ação irá abrir uma parte em branco na parte superior do EViews R Ali podemos escrever o comando abaixo e verificar que ele cria uma variável escalar de nome testef com o resultado do pvalor scalar testef testefchisq253151 61 Diagnóstico Dos Coeficientes 133 Figura 615 Variáveis Omitidas pxsa Note que devido ao fato de executarmos as linhas de programação pela janela de comandos devemos executar cada linha de uma vez Por fim temos o teste de razão de verossimilhança conhecido como LR Esse também tem como objetivo comparar o modelo restrito e o nãorestrito e tem como hipótese nula que adicionar uma nova variável não seria significante para o modelo De forma geral o teste é dado por LR 2lrestrito lnaorestrito Onde lrestrito é o log da verossimilhança para o modelo restrito No nosso exemplo olhando os resultados das estimativas temos que LR 2758298746245 24105 E pelo resultado do pvalor mostrado no início da tabela rejeitamos a hipótese nula de que inserir a variável não é estatísticamente significativo para o modelo Portanto concluímos pela importância de inserir a variável pxt Um lembrete importante esse teste não se aplica quando usamos variáveis dependentes defasadas Isso ficará mais claro após ter estudado os modelos autoregressivosA tabela com os resultados para o teste de variáveis omitidas pode ser facilmente encontrada usando eq1testadd pxsa para o nosso exemplo Também podemos testar a omissão de mais de uma variável Seja por exemplo o modelo básico restrito dado por qxt 18389 6616 0647 0063ywt εt E queremos testar se a omissão da variável pxsa e pmsa são estatisticamente significativas para o modelo ou não Nesse caso o modelo completo seria dado por qxt 126641 15682 1815 0163ywt 1343 0135 pxt 1686 0209pmtεt Para fazer esse teste com a janela da equação acima aberta vá em ViewCoefficient Diagnos ticsOmitted Variables Test A seguir digite o nome das variáveis que estão sendo omitidas tal como mostrado na figura 616 134 Capítulo 6 Regressão Simples Figura 616 Variáveis Omitidas pxsa e pmsa Note que não é mostrado o resultado para o teste t Isso ocorre pois estamos testando mais de uma variável Tanto pelo teste F quanto pelo LR rejeitamos a hipótese nula de que inserir as variáveis não é estatisticamente significativo para o modelo Ou seja a inclusão dessas variáveis no nosso modelo deve resultar em melhora nas estimativas Nesse caso o teste F é dado a partir de Fstat 3643821323656802 2 23656802 1874 49436 E o teste LR é dado por LR 2758298717909 80777 Programação 614 Podemos fazer o teste LR para variáveis omitidas a partir da programação Nesse caso de acordo com o nosso exemplo especifique a equação restrita que tem apenas uma variável independente e a nãorestrita com duas variáveis independentes Após estimar calcule o teste usando o comando do log da verossimilhança smpl 2000M1 2015M7 equation eq1ls qxsa ywsa c equação restrita equation eq4ls qxsa ywsa pxsa c equação nãorestrita matrix12 testeomitida cria uma matriz com 1 linha e 2 colunas testeomitida112eq1logl2eq4logl testeomitida12chisqtesteomitida111 o número de graus de liberdade no teste quiquadrado é igual ao número de restrições variáveis omitidas 618 Variáveis Redundantes Um teste complementar ao teste de variáveis omitidas seria verificar se um conjunto de variáveis do modelo poderia ser excluído sem prejuízo Esse é o tipo de investigação que só faz sentido em modelos de regressão múltipla onde o método de estimação foi mínimos quadrados TSLS binário do tipo logit e demais que possuem variável dependente do tipo ordenada Outro ponto importante para fazer esse teste é que ele só funciona se quando for estimar a equação utilizar variáveis em lista Vamos exemplificar esse teste usando um modelo completo especificado em lista como na figura 617a 61 Diagnóstico Dos Coeficientes 135 a Especificação em Lista b Resultados Figura 617 Variáveis Redundantes Regressão eq2 Note que primeiro escrevese a variável dependente seguida das demais independentes e se for o caso a constante A figura 617b mostra os resultados dessa regressão Nomeiea como eq2 A seguir vá em ViewCoefficient DiagnosticsRedundant Variables Test e especifique as variáveis que quer investigar se podem ser excluídas do modelo No nosso exemplo vamos escolher pmsa e qmsa como mostrado na figura 618a Os resultados dos testes aparecem como mostrado na figura 618b a Exclusão de pmsa e qmsa b Resultados Figura 618 Variáveis Redundantes Na parte inferior do resultado aparece a regressão sem os dois parâmetros de restrição que estamos testando Veja que da mesma forma do teste de variáveis omitidas saí fornecido os resultados par o teste LR e F Seus valores são calculados como anteriormente dispensando apresentação Esse resultado também pode ser obtido usando o comandoeq2 testdrop pmsa qmsa 619 Teste Factor Breakpoint Esse teste é uma forma de encontra uma possível mudança estrutural na equação A maneira de fazer isso é estimar a equação em diferentes subperíodos da amostra e depois comparar os respectivos 136 Capítulo 6 Regressão Simples modelos via soma dos resíduos ao quadrado em um típico teste F Fizemos isso anteriormente ao comparar o SSE de um modelo restrito com outro não restrito Além do teste F também é reportado o teste LR Onde a hipótese nula é de ausência de quebra estrutural e tem distribuição X2 com m1k graus de liberdade Aqui k é o número de parâmetros na equação e m o número de subamostras Por fim tem o teste de Wald onde a hipótese nula é de ausência de mudança estrutural Esse é um teste que para ser feito tem que ter uma variável dummy especificando as datas em que possivelmente tenha ocorrido uma quebra estrutural Até esse momento o leitor não foi apresentado ao conceito de quebra estrutural nem variáveis dummy Uma variável dummy é uma variável indicador que assume valores 0zero e 1um É uma típica variável categórica e que veremos sua aplicação em várias áreas da econometria como modelos probit logit em quebra estrutural e etc Vamos criar uma variáveldummy no nosso banco de dado que separe dois intervalos de tempo Nesse caso o objetivo é testar se os anos eleitorais no Brasil resultaram em problemas para o nosso modelo O box de programação 615 mostra como criar essa dummy Programação 615 Para criar uma variável dummy podemos usar vários recursos digitar os valores diretamente no EViews R criar a série no Excel e copiar para o EViews R usar programação Abaixo mostramos como criar uma dummy de valor 1 para os anos eleitorais e 0zero para os demais anos series dummy0 smpl 1998m1 1998m12 2002m1 2002m12 2006m1 2006m12 2010m1 2010m12 2014m1 2014m12 dummy1 smpl all A figura 619a mostra como ficou nosso gráfico da variável dummy Veja que nos anos eleitorais esta assume o valor 1 Agora vamos ver se esses períodos têm impacto no modelo Vamos usar a equação eq1 como base Abra ela e depois vá em ViewCoefficient DiagnosticsFactor Breakpoint Test e insira a variável dummy no quadro como mostrado na 619b a Variável Dummy b Inserindo Dummy Figura 619 Teste Factor Breakpoint 62 Diagnóstico Dos Resíduos 137 O resultado é tal como mostrado na figura 620 Nas primeiras linhas estão descritas a variável considerada como fator no teste a hipótese nula e o fato de que estamos testando um impacto em todos os parâmetros do modelo São fornecidas três estatísticas em todas não é possível rejeitar a hipótese nula de ausência de quebra estrutural Sendo assim não podemos afirma que os ciclos eleitorais estejam afetando o nosso modelo Figura 620 Resultados do Teste Factor Breakpoint 62 Diagnóstico Dos Resíduos Além do diagnóstico dos coeficientes há uma série de opções para diagnostico dos resíduos e que serão vistas nessa seção O processo de avaliar os resíduos é muito importante pois é ali que ficam caracterizados todos os problemas que possam existir na especificação do modelo Após estimar uma equação de regressão há uma série de pressupostos que devem ser investigados como forma de validar o modelo Por exemplo de uma forma geral ao especificar nosso modelo de regressão colocamos qxt α1 β1ywt εt E na verdade apesar de não ter sido afirmado estamos supondo que εt NIID0σ2 Ou seja estamos supondo que os resíduos têm distribuição normal são independentes e identica mente distribuídos tem média zero e variância finita E esses pressupostos são importantes para garantir que o modelo tem boa especificação Assim esse passo tem como objetivo investigar cada uma dessas afirmações Vamos começar pela mais simples e que menos influência pode ter nos resultados que é a distribuição normal dos resíduos 621 Teste de Normalidade Já vimos anteriormente como podemos testar se uma série de dados possui distribuição normal Agora queremos saber se os resíduos da regressãoeq1 são distribuídos normalmente qxt 18389 6616 0647 0063ywt εt Com a janela da regressão aberta vá em ViewResidual DiagnosticsHistogram Normality test Ao fazer isso será retornado o gráfico da distribuição dos resíduos bem como diversas estatís ticas descritivas como média mediana desviopadrão assimetria curtose e a mais importante o teste de JarqueBera Já vimos isso em capítulo anterior Portanto não há necessidade de explorar 138 Capítulo 6 Regressão Simples os resultados Pelo resultado reportado JB91400010 rejeitamos a hipótese nula ou seja não podemos afirmar que os resíduos possuem distribuição normal 2 622 O teste de Independência BDS Já para o teste de independência opção que não está disponível no diagnósticos dos resíduos temos que primeiro salvar a série dos resíduos Esse teste pode ser feito para qualquer série de tempo e o objetivo é saber se os dados podem ser considerados independentes Nesse caso há dois importantes parâmetros para escolher O primeiro é a distância entre um par de pontos denominado de ε epsilon Para uma série ser verdadeiramente iid considerando qualquer par de pontos a probabilidade de que a distância entre esses pontos seja menor ou igual a ε ou seja c1ε deve ser constante O segundo parâmetro é a dimensão do teste ou seja em quantos pares de pontos o mesmo é aplicado Por exemplo a partir de uma série de dados qualquer yt com t12T podemos criar vários pares de mesma distância ytysyt1ys1ytm1ysm1 Note que foram criados m pares que possuem cmε probabilidades associadas Assim como temos m pares então H0 cmε cm 1 ε independência Ou seja a probabilidade associada a todos os pares cmε é igual ao produto de todas as probabilidades individuais cm 1 εSe isso se verificar então os dados são independentes Vamos aplicar esse teste nos resíduos da equação 1 qxt 18389 6616 0647 0063ywt εt Com a eq1 aberta vá em ProcMake Residual Series e escolha um nome para a série dos resíduos da equação 1 Abra a série de resíduos e a seguir vá em ViewBDS Independence test A seguir selecione como mostrado na figura 621 e clique em OK Figura 621 Teste BDS Dentre as opções de escolha de ε que irá determinar a distância para os pontos recomendase Fraction of pairs que tem menos influência da distribuição dos dados As demais opções são variações para a definição do valor de ε Ao especificar a dimensão máxima em 6 o teste é aplicado para cada valor de m2m6 O terceiro conjunto de opção é para o cálculo das probabilidades do teste Essa pode ser utilizada em séries de dados pequenos que não possuem uma distribuição muito bem definida Nesse caso a distribuição do teste BDS seria diferente da curva normal A parte de resultados que interessa analisar é a mostrada na figura 621 Note que pelo pvalor rejeitamos 2Lembrese que a hipótese nula nesse caso é de distribuição normal 62 Diagnóstico Dos Resíduos 139 a hipótese nula de independência ou seja os resíduos não são independentes O teste pode ser apresentado da seguinte forma BDSm2 01010000 e assim sucessivamente até o valor de m 6 623 Correlograma Qstat Para entender o teste de LjungBox é necessário compreender o que o cálculo da autocorrelação representa para uma série de tempo Conhecemos a correlação que existe entre duas variáveis A ideia é a mesma para o caso da autocorrelação Nesse caso queremos justamente medir o grau de relação que existe entre a informação no tempo t para uma variável y e a informação no tempo k para a mesma variável Isso é feito no EViews R a partir de tk T tk1yt yytk y T t1yt y2 Onde k é justamente o lag entre as duas informações e y é a média da série Vejamos o exemplo dos resíduos da equação de regressão qxt 18389 6616 0647 0063ywt εt Esses possuem média zero e considerando k1 temos t1 187 t2ytyt1 187 t1yt2 y2y1 y3y2 y187y186 y2 1 y2 2 y2 187 0825 O mesmo pode ser feito para a autocorrelação de ordem k que se desejar Com isso construímos a função de autocorrelação que irá mostrar como essa se comporta ao longo do tempo O passo seguinte seria testar se essa autocorrelação é estatisticamente significativa Nesse caso recorremos ao teste de LjungBox que tem a seguinte forma Q TT 2 k j1 t2 j T j onde T é o número de observações k é o lag máximo para o teste e tj é a autocorrelação de ordem j A hipótese nula para o teste é ausência de autocorrelação até o lag k e o mesmo possui distribuição quiquadrado com os graus de liberdade dados pelo número de autocorrelações que se está medindo Para operacionalizar esse teste após rodar uma regressão vá em ViewResidual Diagnos ticCorrelogram Qstatistics A seguir escolha o número de lags e clique em OK conforme figura 622 Um ponto importante para lembrar é que o teste pode ser sensível ao número de lags que é escolhido Figura 622 Teste de LjungBox 140 Capítulo 6 Regressão Simples Para o nosso exemplo o teste de LjungBox para 36 lags sinaliza que pelo menos até o lag 7 não é possível aceitar a hipótese nula de ausência de autocorrelação nos resíduos Ou seja há evidência de autocorrelação Podemos usar a fórmula acima para encontrar o valor do teste Q onde T187 e a autocorrelação de ordem 1 é t1 0825 Q 1871872 1 j1 08252 1871 129270 A forma de apresentar os resultados é tal como Q1 1292700000 624 Correlograma dos Resíduos ao Quadrado O correlograma pode ser usado para identificar a presença ou não de heteroscedasticidade nos dados Nesse caso ao invés de calcular a função de autocorrelação considerando os resíduos como no teste Q anterior a mesma é feita com base nos resíduos ao quadrado Sendo assim primeiro é calculada a função de autocorrelação para cada lag e a seguir é aplicado o teste Q Sua forma de avaliação é tal como anteriormente Figura 623 Correlograma dos Resíduos ao Quadrado Fazendo esse teste para os resíduos ao quadrado da equação 1 figura 623 podemos ver que não é possível aceitar a hipótese nula de ausência de autocorrelação nos resíduos ao quadrado sinalizando que os mesmos podem ter heteroscedasticidade 625 Teste de Autocorrelação LM Esse teste é feito com base na hipótese nula de ausência de autocorrelação até o lag especifi cado Após ter estimado a equação de regressão como fizemos anteriormente no teste Q vá em ViewResidual DiagnosticsSerial Correlation LM Test A seguir escolha o lag máximo que gostaria de testar no nosso exemplo colocamos 2 e clique em OK O que o EViews R faz é pegar a série de resíduos da primeira regressão e fazer uma nova regressão entre esses resíduos seus valores passados e também a variável independente A figura 624 reporta o resultado do teste Programação 621 O teste LM tem distribuição quiquadrado e com graus de liberdade de acordo com o número de lags avaliados sob a hipótese nula Para encontrar o respectivo pvalor do teste no EViews R clique em Window e depois selecione Command A seguir escreva o comando abaixo para encontrar o pvalor scalar testef testefchisq1422232 62 Diagnóstico Dos Resíduos 141 Figura 624 Teste LM para Autocorrelação Dica lembre de executar uma linha por vez quando utilizar a janela de comandos Figura 625 Teste LM Regressão dos Resíduos Note que há duas estatísticas mos tradas O teste F não tem uma distri buição amostral finita conhecida sob a hipótese nula mas mesmo assim é mostrado seu resultado A seguir tem a segunda estatística que possui uma distribuição quiquadrado sendo mais recomendada para avaliação do teste de autocorrelação Para enten der como foi feito o teste basta olhar no final dos resultados a estimativa de uma equação para os resíduos figura 625 Como pode ser visto pelos resul tados acima para ambas as estatís ticas rejeitamse a hipótese nula de ausência de autocorrelação nos resí duos Esse teste pode ser apresentado da seguinte forma LM2 1422230000 Programação 622 Para fazer o teste LM de autocorrelação rodamos a regressão e salvamos a série dos resíduos A seguir fazemos uma regressão desses resíduos com a variável independente e o resíduo com 1 defasagem Por fim é usado um teste quiquadrado com 1 grau de liberdade no valor de T R2 da regressão dos resíduos smpl 2000M1 2015M7 equation eq1ls qxsa ywsa c eq1makeresid resid1 equation autocorls resid1 ywsa c resid11 matrix12 testelm testelm11autocorregobsr2 testelm12chisqtestelm111 142 Capítulo 6 Regressão Simples Figura 626 Teste de Heteroscedasticidade BreuschPaganGodfrey Alternativamente podemos fazer um loop para que sejam testados vários lags no teste LM e armazenar os resultados em uma tabela smpl 2000M1 2015M7 table112 testelm testelm11valor do teste testelm12pvalor equation eq1ls qxsa ywsa c eq1makeresid resid1 for i1 to 10 equation eq10ls resid1 ywsa c resid11 to i testelmi11eq10regobsr2 testelmi12chisqeq10regobsr2i next 626 Testes de Heteroscedasticidade Na literatura da área há vários testes de heteroscedasticidade que podem ser aplicado a uma série de templo O EViews R apresenta algumas opções que discutiremos a seguir e que são aplicados à série dos resíduos da nossa equação BreuschPaganGodfrey Esse teste é feito a partir de uma regressão auxiliar dos resíduos ao quadrado relativamente a todas as variáveis independentes Nesse caso suponha que se tenha feito a seguinte regressão qxt 18389 6616 0647 0063ywt εt E que se pretende investigar a existência de heteroscedasticidade nos resíduos Nesse caso podemos fazer a regressão ε2 t c1c2ywt E testar a hipótese nula de ausência de heteroscedasticidade a partir de 3 diferentes estatísticas propostas pelo EViews R Portanto após feita a regressão podemos ir em ViewResidual Diagnos ticsHeteroskedastic Tests e selecionar o teste de BreuschPaganGodfrey tal como mostrado na figura 626 O primeiro teste mostrado é um teste F Esse irá testar se todos os coeficientes da equação são estatisticamente iguais a zero Note que seu valor é igual ao teste F mostrado ao fim da regressão Pelo pvalor de 0190 podemos dizer que não é possível rejeitar a hipótese nula de ausência de heteroscedasticidade a pelo menos 18 de significância 62 Diagnóstico Dos Resíduos 143 O segundo teste é dado pela multiplicação do número de observações e o R2 da regressão No nosso exemplo ObsR2 18700092 1725 O mesmo tem distribuição X2 e pelo resultado não é possível rejeitar a hipótese nula a por exemplo 18 de significância Programação 623 Os testes de heteroscedasticidade são aplicados após ter rodado uma re gressão Dessa forma só é solicitado após a equação de regressão ter sido especificada Para aplicar um teste à eq1 usamos a função abaixo smpl 2000M1 2015M7 equation eq1ls qxsa ywsa c eq1hettesttypeBPG regs Utilizando essa função é aberta uma janela com o resultado Alternativamente podemos aplicar o teste BPG por uma equação de regressão Note que construímos o teste a partir da regressão original fazendo a série dos resíduos e aplicando uma nova regressão de nome bpg A seguir armazenamos a estimativa do teste no escalar bpgtest e depois o pvalor no escalar quiteste smpl 2000M1 2015M7 equation eq1ls qxsa ywsa c eq1makeresid res1 equation bpgls res12 ywsa c scalar bpgtestbpgr2regobs scalar quitestechisqbpgtestbpgncoef1 Agora que sabemos como fazer o teste para uma única equação podemos inserir o mesmo no loop de 100 regressões que usamos anteriormente Note que nesse caso não usamos mais o termo scalar e sim criamos a matriz que irá armazenar os resultados dos vários testes de heteroscedasticidade heterosc Nesse caso na primeira coluna estão os vários resultados para o valor do teste e na segunda coluna o pvalor do mesmo seguindo um teste quiquadrado smpl 2000M1 2015M7 equation eq1ls qxsa ywsa c matrix1003 coef coef1002eq1coefs1 coef1001eq1coefs11975eq1stderrs1 coef1003eq1coefs11975eq1stderrs1 matrix1002 heterosc eq1makeresid res1 equation bpgls res12 ywsa c heterosc1001bpgr2regobs heterosc1002chisqbpgr2regobsbpgncoef1 for i1 to 99 smpl 2000M1i 2004M12i equation eq2ls qxsa ywsa c 144 Capítulo 6 Regressão Simples Figura 627 Teste de Heteroscedasticidade Harvey coefi2eq2coefs1 coefi1eq2coefs11975eq2stderrs1 coefi3eq2coefs11975eq2stderrs1 eq2makeresid res2 equation bpgls res22 ywsa c heterosci1bpgr2regobs heterosci2chisqbpgr2regobsbpgncoef1 next smpl all Harvey Para fazer esse teste primeiro rodamos a regressão normal tal como mostrado abaixo qxt 18389 6616 0647 0063ywt εt A seguir salvamos os resíduos e fazemos uma regressão no qual diferentemente do teste de BreuschPaganGodfrey no teste de Harvey usamos o logaritmo tal como mostrado a seguir logε2 t c1c2ywt Tal regressão irá produzir um R2 e com isso podemos construir a estatística do teste a partir de T R2 Outra estatística fornecida é a Fstatistics que irá testar se todos os coeficientes da regressão dos resíduos são estatisticamente iguais a zero como apresentado na figura 627 Programação 624 Para fazer o teste de Harvey usamos o mesmo comando de antes hettest mas modificamos o tipo para harvey smpl 2000M1 2015M7 equation eq1ls qxsa ywsa c eq1hettesttypeharvey regs Como a diferença entre o método de Harvey e o de BPG está apenas no fato de que aquele usa logε2 t podemos usar a mesma sequencia de comandos de antes e modificar apenas a estimativa de regressão do teste como mostrado abaixo smpl 2000M1 2015M7 equation eq1ls qxsa ywsa c eq1makeresid res1 equation harveyls logres12 ywsa c scalar harveytestharveyr2regobs scalar quitestechisqharveytestharveyncoef1 smpl all 62 Diagnóstico Dos Resíduos 145 Glejser Para fazer esse teste primeiro rodamos a regressão normal tal como mostrado abaixo qxt 18389 6616 0647 0063ywt εt A seguir salvamos os resíduos e fazemos uma regressão no qual diferentemente do teste de Harvey utilizamos os resíduos em módulo tal como mostrado a seguir εt c1c2ywt A figura 628 mostra os resultados para esse teste Na primeira linha está o teste F que testa se todos os coeficientes da regressão dos resíduos são iguais a zero A seguir está o teste que considera T R2 tal como feito anteriormente nos dois outros testes Figura 628 Teste de Heteroscedasticidade Glejser Programação 625 O teste de Glejser pode ser feito modificando no comando hettest o tipo para glejser smpl 2000M1 2015M7 equation eq1ls qxsa ywsa c eq1hettesttypeglejser regs Nesse teste usamos o valor absoluto dos resíduos e não os resíduos ao quadrado E isso pode facilmente ser modificado no nosso comando usando abs tal como mostrado a seguir smpl 2000M1 2015M7 equation eq1ls qxsa ywsa c eq1makeresid res1 equation glejserls absres1 ywsa c scalar glejsertestglejserr2regobs scalar quitestechisqglejsertestglejserncoef1 smpl all ARCH Sem dúvida esse é um dos testes mais recomendados para identificar a presença de heteroscedasti cidade nos resíduos de uma regressão Partindo do nosso modelo de regressão qxt 18389 6616 0647 0063ywt εt Salvamos os resíduos e fazemos uma nova regressão no qual diferentemente dos testes anterio res também usamos os resíduos ao quadrado em defasagens como variável explicativa tal como mostrado a seguir 146 Capítulo 6 Regressão Simples Figura 629 Teste de Heteroscedasticidade ARCH ε2 t c1c2ε2 t1 São mostrados dois testes o Fstatistic e o T R2 Em ambos podemos ver que não é possível aceitar a hipótese nula de homoscedasticidade Um ponto interessante desse modelo é que ele difere do encontrado anteriormente pelos outros testes de heteroscedasticidade Porém devido ao poder do teste recomendamos que o leitor considere fortemente o teste ARCH como o mais importante Programação 626 Para fazer o teste ARCH via programação modificamos no comando hettest o tipo de teste para arch Porém nesse caso devemos especificar quantos lags serão utilizados para o teste Como exemplo usamos uma defasagem para os resíduos ao quadrado como mostrado a seguir smpl 2000M1 2015M7 equation eq1ls qxsa ywsa c eq1hettesttypearch lags1 regs Esse teste também pode ser construído no EViews R a partir dos comandos mostrados a seguir Primeiro é feita a estimativa do modelo inicial e os resíduos são salvos A seguir como queremos apenas 1 lag fazemos uma regressão dos resíduos ao quadrado tendo como variável independente a dependente com 1 defasagem Por fim aplicamos a estatística quiquadrado smpl 2000M1 2015M7 equation eq1ls qxsa ywsa c eq1makeresid res1 equation archls res12 c res121 scalar archtestarchr2regobs scalar quitestechisqarchtest1 smpl all Programação 627 O loop a seguir faz 100 regressões acrescentando a cada passo um novo mês na amostra A seguir faz os quatro testes de heteroscedasticidade apresentados BPG Glejser Harvey e ARCH e salva o pvalor em uma matriz com 100 linhas e quatro colunas Esse exercício irá permitir avaliar para qual sequência de dados é possível aceitar ou rejeitar a hipótese nula de ausência de heteroscedasticidade 63 Diagnóstico De Estabilidade 147 smpl 2000M1 2015M7 equation eq1ls qxsa ywsa c matrix1004 testeh for i1 to 100 smpl 2000M1i 2004M12i equation eq3ls qxsa ywsa c eq3makeresid res3 equation bpgls res32 ywsa c testehi1chisqbpgr2regobsbpgncoef1 equation harveyls logres32 ywsa c testehi2chisqharveyr2regobsharveyncoef1 equation glejserls absres3 ywsa c testehi3chisqglejserr2regobsglejserncoef1 equation harchls res32 c ar1 testehi4chisqharchr2regobs1 next smpl all 63 Diagnóstico De Estabilidade Avaliamos anteriormente diversas características dos resíduos que são importantes para sinalizar a eficácia do modelo formulado Essas são investigações consideradas padrão como a normalidade nos resíduos a autocorrelação a independência e a heteroscedasticidade Porém alguns desses resultados podem estar sendo influenciados pela presença de quebra estrutural e que pode se manifestar de várias formas na média nos parâmetros ou na tendência Em síntese os coeficientes podem não ser estáveis ao longo do tempo e isso resulta em problemas de formulação A seguir apresentamos alguns testes disponíveis noEViews R parar lidar com a estabilidade nos parâmetros 631 Teste de Chow Esse é um dos testes mais antigos e simples para identificar a existência ou não de quebra estrutural Aqui a proposta é a partir da especificação de uma data na amostra de dados dividir o mesmo em 2 partes rodar três regressões e comparar os resultados A primeira regressão denominada de modelo nãorestrito é feita para todo o conjunto de dados A segunda considerada modelo restrito estima uma regressão entre a data inicial e a data especificada como de mudança estrutural E por fim a terceira regressão é feita entre essa data especificada e o fim do período amostral Assim suponha que se tenha feito a seguinte regressão qxt 18389 6616 0647 0063ywt εt E que se quer verificar se ocorreu uma mudança estrutural em 2008M1 tanto na constante quanto no coeficiente de inclinação Nesse caso especificamos essa data e o EViews R irá rodar duas regressões da forma qxt c1c2ywt εtentre 2000M1 e 2007M12 qxt c3c4ywt εtentre 2008M1 e 2015M7 Onde a primeira usa os dados entre a data inicial e 2007M12 e a segunda entre 2008M1 e a data final Note que a data escolhida é utilizada na segunda regressão A seguir é feito um teste F para 148 Capítulo 6 Regressão Simples Figura 630 Teste de Chow comparar os dois modelos com a estimativa para todo o período amostral Esse teste utiliza a soma ao quadrado dos resíduos SSR de cada uma das três regressões Fstat SSRSSR1SSR2 k SSR1SSR2 T2k Onde SSR é a soma ao quadrado dos resíduos da regressão que usa todo o conjunto de dados SSR1 é a soma dos resíduos ao quadrado para a regressão do período pre mudança estrutural e SSR2 é a soma dos resíduos ao quadrado da segunda regressão que usa o período pos quebra estrutural Por fim T é o número de dados e k o número de parâmetros da regressão A hipótese nula é de que as duas subamostras são iguais ou seja não tem mudança estrutural Um ponto importante nesse teste é que caso não seja especificado o EViews R irá testar a instabilidade em todos os parâmetros Vejamos como isso pode ser feito no EViews R Após estimar a equação de regressão para todo o período amostral vá em ViewStability DiagnosticsChow Breakpoint Test Na janela que vai abrir escreva a data de mudança estrutural que para o nosso exemplo é 2008M1 janeiro de 2008 Abaixo estão os parâmetros que se quer testar a mudança estrutural tanto para a constante quanto para a elasticidaderenda Nesse nosso exemplo vamos testar uma mudança estrutural na constante e elasticidaderenda Na janela de resultados figura 630 primeiro é especificada a data de quebra estrutural a seguir a hipótese nula e os parâmetros onde ocorreram a mudança Por fim a amostra de dados utilizada Para encontrar a estatística F vamos especificar cada uma das 3 regressões Para a que contempla todo o conjunto amostral temos que SSR 36438213 Já na regressão que vai de 2000M1 até 2007M12 encontrase SSR1 2816406 e para a da segunda parte de dados SSR2 8719257 O conjunto amostral é T187 e o número de parâmetros é k2 Portanto a estatística F é Fstat 3643821328164068719257 2 28164068719257 1874 197525 A estatística F os testes de razão de verossimilhança e Wald trabalham sob a hipótese nula de não existência de mudança estrutural para toda a amostra Esses dois últimos possuem distribuição X2 com mkv graus de liberdade onde m a quantidade de quebras e kv os número de parâmetros testados na mudança estrutural Para o nosso exemplo figura 630 baseado nos três testes rejeitamos a hipótese nula ao nível de confiança de 99 e portanto a data escolhida 2008M1 pode ser considerada como de quebra estrutural do modelo especificado 63 Diagnóstico De Estabilidade 149 Programação 631 O teste de Chow tem distribuição quiquadrado para o teste LR e de Wald considerando como graus de liberdade q mkv Por isso utilizamos o comando chisqvalor do teste graus de liberdade Para o teste F a distribuição é a F Logo seu pvalor é dado por 1cfdistFstatqTqk onde Fstat é o valor do teste F q mkv é o número de restrições sob a hipótese nula e T q k é o número de observações menos as restrições e os parametros da regressão original Assim para encontrar o respectivo pvalor dos testes no EViews R clique em Window e depois selecione Command A seguir escreva os comandos abaixo e execute um de cada vez scalar testeF1cfdist1975252183 scalar testeLRchisq2150822 scalar testeWaldchisq3950502 Programação 632 Para aplicar o teste de Chow primeiro especificamos a regressão e a seguir o teste colocando a data que queremos testar para ver se ocorreu uma mudança estrutural smpl 2000M1 2015M7 equation eq1ls qxsa ywsa c eq1chow 2008M1 Um aspecto ruim do teste de Chow é que devemos especificar a data da quebra estrutural o que dificulta encontrar o ponto ideal da quebra Uma forma de contornar isso é usar um loop No exemplo abaixo começamos com a primeira data de quebra em 2008M1 e a seguir são rodadas 50 regressões Note que a cada momento após escolher as datas de quebra são feitas duas regressões restritas uma para a primeira parte e outra para a parte final A seguir feito os testes F e de Wald calculados os pvalores e armazenados os resultados em uma tabela chamada chowresult smpl 2000M1 2015M7 equation eq5ls qxsa ywsa c scalar chowfteste scalar chowfpvalor scalar chowwaldteste scalar chowwaldpvalor table chowresult chowresult11Data de Mudança Estrutural chowresult12Estatística F chowresult13Prob chowresult14Teste de Wald chowresult15Prob for i1 to 50 smpl 2000M1 2007M11i equation eq6ls qxsa ywsa c smpl 2007M12i 2015M7 equation eq7ls qxsa ywsa c chowftesteeq5ssreq6ssreq7ssreq5ncoefeq6ssr eq7ssreq5regobs2eq5ncoef chowfpvalor1cfdistchowfteste2eq5regobseq5ncoefeq6ncoef 150 Capítulo 6 Regressão Simples chowwaldtestetransposeidentityeq5ncoefeq6coefs eq7coefs inverseeq6coveq6se2eq7coveq7se2identity eq5ncoefeq6coefseq7coefseq5regobs2eq5ncoef eq6ssreq7ssr chowwaldpvalorchisqchowwaldtesteeq5ncoef chowresulti11otods1 chowresulti12 chowfteste chowresulti13chowfpvalor chowresulti14chowwaldteste chowresulti15chowwaldpvalor next smpl all O teste de Chow também pode ser especificado de forma a identificar a presença de quebra estrutural apenas em um dos parâmetros ou em parte Com a equação aberta vá em ViewStability DiagnosticsChow Breakpoint Test e a seguir para testar mudanças na constante especificase a data e depois deixa escrito apenas c na parte de baixo da janela Programação 633 Para especificar em quais parâmetros queremos aplicar o teste de Chow adicionamos ao comando chow depois declaração da data de mudança estrutural a instrução seguido do nome das variáveis eq1chow 2008M1 ywsa O EViews R também permite testarmos mais de uma quebra estrutural com o teste de Chow eq1chow 2008M1 2010M7 ywsa c 632 Teste de QuandtAndrews O teste de Chow é muito simples e de difícil solução prática uma vez que devemos testar várias datas e formatos para ter certeza de onde veio a instabilidade e em que parâmetro Uma evolução natural seria permitir que fossem feitos diversos testes ao mesmo tempo em uma sequência e ao final escolher a data apropriada Essa é justamente a proposta do teste de QuandtAndrews Esse teste pode ser aplicado para identificar mais de uma data de quebra estrutural usando como base a ideia do teste de Chow Nesse caso o mesmo é aplicado a cada informação entre a data de início e final do conjunto de dados A hipótese nula é de ausência de quebra estrutural e pode ser feito para toda a equação considerando todos os parâmetros ao mesmo tempo ou então para o caso de uma equação linear para cada um dos parâmetros de forma isolada Uma diferença importante entre esse teste e do de Chow é que aqui especificamos o trimming ou seja o percentual de dados que são isolados do teste e não são utilizados No eviews como default é fornecido o valor 15 Se escolher esse então na verdade estamos retirando 15 dos dados 75 do início da amostra e 75 do final e o teste é feito com o restante dos dados entre dois pontos τ1 e τ2 Como pode ser visto na figura 631 também escolhemos qual parâmetro será utilizado para o teste No exemplo abaixo aplicamos o mesmo para os dois parâmetros da nossa regressão simples o da elasticidaderenda e a constante Por fim como opcional especificamos um nome para a série dos testes tanto para o LR quanto para o teste de Wald O que acontece com esse teste é que como o mesmo é aplicado a cada uma das datas entre τ1 e τ2 então iremos produzir uma estatística LR e Wald para cada uma dessas datas Com isso estaremos formando uma série com o resultado do teste A estatística LR com distribuição F compara um modelo restrito com um não restrito e após 63 Diagnóstico De Estabilidade 151 Figura 631 Teste de Quebra Estrutural de QuandtAndrews Figura 632 Resultados dos Testes LR e Wald ter todos os resultados a data da quebra é escolhida a partir do valor máximo do teste como em MaxF max τ1ττ2Fτ Pelos resultados do teste de QuandtAndrews aplicado ao modelo de regressão simples qxt 18389 6616 0647 0063ywt εt podemos ver que rejeitamos a hipótese nula de ausência de quebra estrutural Nesse caso há uma mudança estrutural e essa é especificamente em agosto de 2008 As duas estatísticas são mostradas no gráfico 632 Note que ambas revelam que o valor máximo para o teste tanto o LR quanto Wald é em agosto de 2008 Com a escolha de um trimming de 15 foram eliminados 29 dados do início e outros 28 do final da série restando 130 datas para serem testadas 152 Capítulo 6 Regressão Simples Figura 633 Teste de Previsão de Chow Quebra Estrutural Programação 634 Para fazer o teste de QuandtAndrews usamos a função ubreak e que pode ser aplicada a qualquer equação No exemplo abaixo aplicamos a mesma à regressão simples Uma opção interessante é pedir a série dos testes de wald e de LR usados para selecionar o ponto de quebra estrutural O número após a função se refere ao tamanho da parte da amostra que é retirada do teste No caso de 15 estamos escolhendo 15 dos dados smpl 2000M1 2015M7 equation eq1ls qxsa ywsa c eq1ubreakwfnametestewaldlfnametestelr 15 633 Teste de Previsão de Chow Aqui é feita duas regressões uma para todo o conjunto de dados e outra apenas com os dados que vão até a data anterior da quebra estrutural São reportadas duas estatísticas a primeira é o teste F que é dado por Fstat SSRSSR1 T2 SSR1 T1k Onde SSR é a soma dos resíduos ao quadrado da regressão completa SSR1 é a soma dos resíduos ao quadrado da regressão com dados que vão até T1 que é o número de dados utilizados nesse período T1 é o número de dados da segunda parte da regressão e k é o número de parâmetros da regressão completa A hipótese nula é de ausência de quebra estrutural LR 2lrestrito lnaorestrito Para fazer esse teste vá em ViewStability DiagnosticsChow Forecast Test Os resultados do exemplo de um teste de quebra estrutural para a data 2008M8 são mostrados na figura 633 Note que pelos resultados do teste F rejeitamos a hipótese nula de ausência de quebra estrutural confirmando o resultado encontrado pelo teste de QuandtAndrews anterior A estatística F pode ser calculada a partir de Fstat 364382133573942 84 3573942 1032 11056 E para a estatística LR usamos LR 2758298541196 434204 63 Diagnóstico De Estabilidade 153 Figura 634 Teste de Ramsey Quebra Estrutural 634 Teste de Ramsey Aprendemos anteriormente a testar se os resíduos possuem distribuição normal se há presença de heteroscedasticidade ou então autocorrelação Porém há outros problemas que podem aparecer na nossa regressão como por exemplo de variável omitida de má especificação da forma funcional ou a correlação entre a variável independente e os resíduos Esses aspectos irão resultar que o estimador de mínimos quadrados é viesado e não consistente e dessa forma o vetor dos resíduos não terá média zero ver Ramsey1969 Assim o teste é feito considerando como hipótese nula que os resíduos da equação são distribuídos normalmente com média zero e variância constante contra a hipótese alternativa de que a média dos resíduos não é zero Na figura 634 especificamos que o número de termos a serem considerados no teste é 1 ou seja usamos como variável adicional o quadrado da variável dependente qxt α1 β1ywt qx2 t εt Assim temos que o teste considera as seguintes hipóteses H0 qxt α1 β1ywt εt Ha qxt α1 β1ywt qx2 t εt E pode ser visto como um teste de variável omitida A figura 634 apresenta os resultados para esse teste Note que são fornecidas três estatísticas para o teste e todas apontam para a não aceitação da hipótese nula Portanto a nossa equação possui problema de especificação 635 Estimativas Recursivas As Estimativas Recursivas podem ser acessadas em ViewStability DiagnosticsRecursive Esti mates Essa seção é aplicada de seis formas diferentes cada uma fornecendo uma informação específica Recursive Residual Para esse teste são feitas várias regressões a partir do método MQO mudando apenas o período amostral A primeira regressão é feita com uma quantidade de informações igual ao número de coeficientes Considerando a nossa equação básica com a quantidade como função da renda temos 2 coeficientes a constante e a elasticidade renda tal como qxt α1 β1ywt εt 154 Capítulo 6 Regressão Simples Figura 635 Resultado dos Resíduos Recursivos Note que temos k2 onde k é o número de coeficientes Assim a primeira regressão é feita considerando os 2 primeiros dados da amostra O resultado para esses coeficientes é utilizado para prever o valor da variável dependente no período seguinte Depois é calculada a diferença entre o valor previsto e o verdadeiro valor e dividida pela variância da previsão Esse resultado é denominado de recursive residual e seu valor é armazenado em um vetor A seguir acrescentamos o terceiro dado da amostra e fazemos novamente a regressão en contrando os coeficientes fazendo a previsão para um passo à frente dividindo pela variância da previsão e encontrando o resíduo Esse resíduo é armazenado no vetor de resíduos Esse procedimento continua até que se utilize todo o conjunto amostral ou seja as T observações Sendo assim fazemos um total de T k 1 regressões e obtemos um total de T k 1 estimativas para os resíduos Vejamos como fica esse processo a partir dos dados da equação acima A primeira regressão com apenas os dois primeiros dados ou seja usando 2000M1 a 2000M2 produz o seguinte resultado qxt 6406569106ywt εt Se usarmos esses coeficientes para prever o valor de qx para 2000M3 encontramos qx2000M3 640656910677169εt 62082 O verdadeiro valor é qx2000M3 55747 gerando um resíduo de valor 6335 A seguir temos que calcular a variância da previsão e depois recursiveresidual2000M3 6335 2169 2920 Esse procedimento é repetido até o fim da amostra gerando uma sequência de valores para os resíduos recursivos O EViews R retorna o gráfico dessa sequência com o respectivo intervalo de confiança conforme apresentado na figura 635 Valores que estão fora do intervalo sinalizam instabilidade nos parâmetros da equação Note que a data entre 2008M8 e 2009M6 está fora do intervalo de confiança sinalizando possível quebra estrutural nesse período Teste CUSUM Os resíduos recursivos obtidos do teste anterior recursive residual são usados para produzir o teste CUSUM ou seja esse teste nada mais é que a soma cumulativa dos resíduos encontrados no teste anterior Nesse caso esse é dividido pelo seu respectivo desviopadrão e depois é feita 63 Diagnóstico De Estabilidade 155 Figura 636 Teste CUSUM Figura 637 Teste do CUSUM ao Quadrado a soma desses resíduos Se o valor ficar fora do intervalo crítico de 5 do teste então há uma sinalização de instabilidade nos coeficientes da equação Ao aplicar esse teste à nossa equação acima encontramos o seguinte resultado mostrado na figura 636 Note que em 2009M9 o teste ultrapassa o valor crítico a 5 sinalizando uma instabilidade no modelo Teste do CUSUM ao Quadrado Da forma como o teste é calculado seria como obter a variância dos resíduos recursivos Na verdade deriva do teste CUSUM e do teste recursivo só que aqui elevamos os resíduos ao quadrado e depois somamos os mesmos A expectativa do resultado desse teste sob a hipótese de estabilidade dos parâmetros é que inicie em zero e termine em 1 e que seu resultado fique dentro do intervalo de 5 de significância Aplicando o teste ao nosso modelo encontramos que há uma instabilidade entre 2001M12 e 2013M12 figura 637 Teste de Previsão OneStep Esse teste também utiliza os resultados dos resíduos recursivos complementando a análise do mesmo com o desviopadrão da amostra total Seu resultado para o nosso modelo é mostrado na figura 638 Note que há duas informações Primeiro a série do resíduo recursivo é mostrada 156 Capítulo 6 Regressão Simples Figura 638 Teste de Previsão OneStep Figura 639 Teste de Previsão NStep novamente com seus valores no eixo direito Além desse também é mostrado o pvalor do teste ou seja a probabilidade associada à rejeição da hipótese de estabilidade dos parâmetros Nos pontos com valores menores significa a não aceitação da hipótese nula de estabilidade Como pode ser visto há vários desses pontos em especial entre 2007 e 2015 Teste de Previsão Nstep Esse teste também usa os resultados dos resíduos recursivos e é equivalente ao teste de Chow mas sem a necessidade de informar cada uma das datas que se queira testar Ou seja o teste é feito para várias datas e retorna o valor dentro de um intervalo de confiança e com o pvalor Os resultados paro o nosso modelo são apresentados na figura 639 Coeficientes Recursivos Esse teste pode ser utilizado para identificar como é o comportamento de cada um dos coeficientes ao longo do tempo Para tanto o método segue a estimativa feita anteriormente quando foram obtidos os resíduos recursivos para encontrar o valor a cada momento do tempo adicionando a cada passo uma nova observação Para o nosso modelo o teste foi feito para os dois coeficientes e seus resultados sinalizam 63 Diagnóstico De Estabilidade 157 a Constante b Elasticidade Renda Figura 640 Coeficientes Recursivos instabilidade presente nas informações adicionadas até meados de 2004 conforme mostrados na figura 640 636 Leverage Plots Figura 641 Opções Leverage Plots Esse método gráfico fornece a in formação sobre a presença de pos síveis outliers a partir de várias re gressões e a comparação dos resíduos Clique em ViewStability Diagnos ticsLeverage Plots que serão mos tradas as opções em uma janela Na primeira parte devem ser definidas as variáveis que serão utilizadas na análise No nosso exemplo sabemos que a variável qxsa é dependente e especificamos ywsa e c constante como regressores A seguir selecione a opção para adicionar uma linha de tendência e para a informação parcial que é a mais ilustrativa Por fim espe cifique um nome para que ao salvar as séries de resíduos resultantes se tenha um nome como complemento Nesse exemplo serão geradas quatro séries adicionais no workfile Duas séries são geradas usando a variável dependente Na primeira temos a sé rie de nome qxsapywsalv que representa os resíduos da regressão qxt cεt A segunda é dada pela série de nome qxsapclv e representa os resíduos da regressão qxt βywt εt A seguir temos duas outras séries que são geradas a partir do uso das variáveis independentes Nesse caso como temos apenas uma independente teremos duas séries derivadas A primeira é a 158 Capítulo 6 Regressão Simples a Constante b Ywsa Figura 642 Leverage Plots série de nome clv que representa a série de resíduos da regressão ywt cεt De acordo com o nosso exemplo serão gerados dois gráficos de dispersão O primeiro mostrado na figura 642a representa a relação entre a série clv e qxsapclv A seguir o segundo gráfico figura 642b representa a relação entre a série ywsalv e qxsapywsalv 637 Estatísticas de Influência Uma forma de identificar a presença de outliers é através das estatísticas de influência Uma informação é considerada como um outlier se ela produz um impacto significativo na regressão Assim partindo dessa definição essa estatística é aplicada ao conjunto de dados para identificar o quanto que uma única observação pode modificar o modelo de regressão São seis diferentes estatísticas que podem ser utilizadas Vá em ViewStability DiagnosticsInfluence Statistics A seguir selecione três estatísticas como mostrado na figura 643 Os resultados serão salvos nas respectivas séries IS1 IS2 e IS3 e mostrados em um conjunto de gráficos Note na figura 644 que para cada uma das estatísticas há um intervalo de confiança Os testes RStudent e COVRATIO apontam 2008M1 como um outlier e também RStudent junto do teste DFFITS sinalizam para a existência de um outlier em 2014M8 64 Previsão Forecast A partir do momento que temos a estimativa dos parâmetros do modelo podemos fazer previsões para o futuro e mais do que isso encontrar um intervalo de confiança para essa previsão De um modo geral nosso modelo simples pode ser representado pela equação linear qxt α1 β1ywt εt onde os valores de yw são conhecidos Lembrese que os dados são ajustados sazonalmente Para cada valor de ywtn utilizado podemos encontrar um respectivo valor de qxtn o que nos permitirá obter futuramente o erro de previsão Sendo assim podemos modificar essa equação linear como forma de obter o erro de previsão 64 Previsão Forecast 159 Figura 643 Opções Estatísticas de Influência a RStudent b DFFITS c COVRATIO Figura 644 Teste de Quebra Estrutural Estatística de Influência q𝑥𝑡q𝑥ₜαβywₜεₜq𝑥ₜ Além disso usando o fato ³ de que q𝑥ₜα1β1ywₜεₜ podemos substituir o mesmo na equação acima e obter q𝑥ₜq𝑥ₜαβywₜεₜαβywₜ q𝑥ₜq𝑥ₜααββywₜεₜ Esse valor que encontramos corresponde ao valor médio de erro de previsão Porém para fazer inferência estatística sobre a previsão devemos conhecer outros resultados em especial a variância do erro de previsão A partir da equação acima aplicamos o operador V que corresponde à variância encontramos a variância do erro de previsão Vq𝑥ₜq𝑥ₜVααββywₜεₜ Vq𝑥ₜq𝑥ₜVααywₜ²Vββ2ywₜcovααββVεₜ Usando o fato de que Vαασ²1Tȳw²T i1yw²Tȳw² Vββσ²T i1yw²Tȳw² covααββσ²ȳwT i1yw²Tȳw² Então temos que a variância do erro de previsão pode ser calculada a partir de Vq𝑥ₜq𝑥ₜσ²1Tȳw²T i1yw²Tȳw²ywₜ²σ²T i1yw²Tȳw²2ywₜσ²ȳwT i1yw²Tȳw²σ² onde σ² é a variância da regressão Colocando σ² em evidência chegamos a uma formulação mais reduzida da variância do erro de previsão Vq𝑥ₜq𝑥ₜσ²11Tywȳw²T i1yw²Tȳw² Essa equação mostra para cada informação de ywₜₙ prevista a variância dessa previsão Sendo assim para qualquer valor de ywₜₙ que utilizarmos o correspondente valor de q𝑥ₜₙ irá se encontrar exatamente na reta de regressão que estimamos Seria como se estivéssemos prolongando a nossa reta de regressão para poder fazer uma previsão dos valores futuros⁴ Mas essa é uma estimativa por ponto e uma vez que estamos diante de incerteza o que acaba por incorporar a presença de probabilidade de ocorrência de um evento e devemos ter cuidado ao trabalhar com essa informação Sendo assim recorremos à estimativa de um intervalo para a nossa previsão E como vimos anteriormente para construir esse intervalo precisamos do cálculo da variância ³O leitor deve prestar bastante atenção à diferença que existe entre a equação conhecida yαβx e a estimada ŷαβxε ⁴Considere que a escolha de um modelo econométrico para fazer previsão resulta em um casamento com a relação entre as variáveis independentes e a dependente Com a vantagem de ser menos burocrático trocálo Forecast Forecast of Equation EQ1 Series QXSA Series names Forecast name qxsaf SE optional qxsef GARCHoptional Method Static forecast no dynamics in equation Structural ignore ARMA x Coef uncertainty in SE calc Forecast sample 1997m01 2015m09 Output x Forecast graph x Forecast evaluation x Insert actuals for outofsample observations OK Cancel Figura 645 Fazendo a Previsão A previsão da variável dependente da nossa equação no EViews pode ser feita a partir de três diferentes formas Na primeira com os resultados da equação aberto clique em Forecast que irá aparecer a janela conforme figura 645 O que temos que fazer é especificar o nome da série prevista na parte Forecast name e caso queira o desviopadrão da previsão especificado como SE Esse irá construir um intervalo de previsão para os dados O mais interessante aqui é construir o intervalo com 2 desvios padrão em relação à média Nesse caso a informação de SE deve ser multiplicada por 2 e depois acrescida e subtraída da série prevista para se ter o intervalo No box de programação a seguir construímos esse intervalo mínimo e máximo Os resultados podem ser mostrados tanto em um gráfico quanto em uma tabela com estatísticas de informação que são úteis para comparar diferentes modelos A segunda forma de fazer essa previsão é clicar em ProcForecast que irá abrir a mesma janela de previsão Na primeira linha é mostrado que a previsão é feita para a equação de nome eq1 e a série que está sendo prevista é qxsa Uma vez que temos uma equação de regressão simples apenas algumas opções em Forecast são abertas No caso do Method como não temos variável dependente defasada fazemos uma previsão que não é dinâmica Podemos mudar o intervalo da previsão no campo denominado de Forecast Sample Além disso podemos mudar na parte de Output o que queremos que seja mostrado os gráficos e os resultados de avaliação dessa previsão Por economia de espaço foi pedido apenas os resultados da previsão e não mostramos o gráfico na figura 645 Vamos discutir as estatísticas mostradas nesse cálculo e que se referem aos erros de previsão Em todas as três primeiras estatísticas quando for comparar diferentes modelos podemos escolher aquele que tem o menor valor para essas estatísticas A primeira delas é o RMSE e que é dado a partir de RMSE tT1Thqxt qxt2h Ou seja calculamos o erro de previsão para cada ponto do intervalo t elevamos ao quadrado somamos todos eles dividimos pelo número de dados utilizados h e por fim extraímos a raiz A segunda estatística é o erro médio absoluto também referido como MAE Esse é dado a partir de MAE tT1Thqxt qxth Nesse caso para cada erro de previsão é aplicado o operador módulo que transforma valores negativos em positivos e a seguir cada um desses erros absolutos são divididos pelo total de dados Por fim somamse todos esses erros A terceira estatística é o erro percentual médio absoluto também referido como MAPE e que é dado por MAPE 100 tT1Th qxt qxt qxt h Nesse caso cada erro de previsão é dividido pelo valor observado extraído o valor absoluto e dividido pelo número de dados Por fim esses resultados são somados e multiplicados por 100 Programação 641 A terceira forma de fazer previsão é via programa A primeira linha determina a equação de regressão de nome eq1 A seguir é especificado o período para a previsão Por fim é feita a previsão para a equação e o resultado colocado na série qxsaf Também é pedido que seja fornecido o SE e damos o nome ao mesmo de qxsase Por fim construímos outras duas séries de dados uma para especificar o intervalo de previsão mínimo com 2 desviospadrão e outra série para o intervalo máximo também com 2 desviospadrão equation eq1ls qxsa ywsa c smpl 2000M1 2015M7 eq1fit qxsaf qxsase series minimoqxsaf2qxsase series maximoqxsaf2qxsase Por fim há um bloco de resultados que se refere ao coeficiente de desigualdade de Theil onde os resultados oscilam entre 0 e 1 sendo que um modelo com resultado 0 é considerado como um que faz a perfeita previsão dos dados A primeira estatística é uma relação do RMSE total com suas partes a prevista junto com a observada Note que no numerador temos o resultado para a estatística RMSE que calcula o erro para cada ponto de previsão Por outro lado no denominador essa estatística é quebrada em duas partes Na primeira cada valor previsto da variável dependente é elevado ao quadrado e dividido pelo número total de dados Ao final esses valores são somados e extraídos a raiz Na segunda parte do denominador estão os valores observados onde os mesmos são elevados ao quadrado divididos pelo total de dados e por fim somados e extraída a raiz Theil tT1Thqxt qxt2 h tT1Thqxt 2 h tT1Thqxt2 h As três estatísticas seguintes de previsão são proporções A primeira delas denominada de Bias Proportion relaciona duas medidas No numerador temos a diferença entre o valor previsto médio valor previsto dividido pelo total de dados e a média do valor observado A seguir esse valor é elevado ao quadrado Note que tT1Th qxt h é a média do valor previsto No denominador temos a estatística de RMSE sem a extração da raiz Essa estatística mostra o quanto a média da previsão se distancia da média da série atual Ela irá oscilar entre 0 e 1 Se for 0 significa que a média dos valores previstos é igual à média dos valores observados Por outro lado se for 1 significa que a média dos valores previstos são bem diferentes dos valores observados Portanto quanto mais próximo de 0 for o valor de bias melhor é o modelo estimado bias tT1Thqxt h qxt2 tT1Thqxt qxt2 h A segunda estatística é a Variance Proportion justamente porque relaciona a variância Nesse caso no numerador temos a diferença entre a variância da previsão com a variância do valor observado A seguir essa diferença é elevada ao quadrado Essa estatística mostra o quanto a variância do erro de previsão se distancia da variância do erro do valor observado Quando esse valor for próximo de 0 menor é a diferença das variâncias entre o valor previsto e observado ou seja o modelo é melhor do que aquele que apresenta uma estatística de variance mais próxima de 1 variance σy σy2 tT1Thqxt qxt2 h A terceira estatística é a Covariance Proportion que considera a estimativa da covariância entre os valores previstos e observados No numerador temos que r é a correlação entre o valor previsto e observado Essa estatística mede os erros de previsão restante Quanto melhor for o modelo menor deve ser a estatística bias e variance o que por sua vez faz com que a maioria do viés do modelo esteja concentrado na estatística de covariância Essa estatística também vai de 0 a 1 covariance 21 r σy σy tT1Thqxt qxt2 h Vamos agora juntar os conhecimentos adquiridos com a regressão simples e a estimativa por alisamento exponencial para produzir uma previsão da variável qx alguns meses à frente No arquivo regressão simpleswf1 as séries já estão ajustadas sazonalmente e nomeadas com o sufixo sa A ideia é fazer uma regressão simples com todos os dados disponíveis Como não sabemos a trajetória futura das variáveis independentes usamos o método do alisamento exponencial para prever vários passos a frente A seguir fazemos uma previsão da variável dependente considerando essas trajetórias Programação 642 Podemos usar a técnica de alisamento exponencial para definir uma trajetória para as variáveis independentes e de posse desses valores usar o recurso de previsão do EViews para prever o comportamento da variável dependente smpl first last for a pxsa ywsa asmoothmeee asm next smpl first 2013M7 series pxsapxsa series ywsaywsa smpl 2013M7 2015M12 pxsapxsasm pxwsaywsasm smpl first last equation eq1ls qxsa ywsa pxsa c smpl 2013m7 2015m12 164 Capítulo 6 Regressão Simples eq1fit qxsaf smpl first last 65 ANEXO ESTATÍSTICO 651 MÍNIMOS QUADRADOS ORDINÁRIOS Vimos anteriormente que em um modelo de regressão simples partindo dos dados de y e x queremos encontrar a equação que melhor irá descrever o comportamento dos mesmos Nesse caso considerando a relação lineary α βxε procuramos os valores de ˆα e ˆβ Um dos métodos que podem ser empregados para estimar esses valores é o MQO Mínimos Quadrados Ordinários que consiste na minimização da soma ao quadrado dos resíduos Min αβ n i1 εi2 n i1 yi α βxi2 Inicialmente vamos resolver esse problema para α n i1 ε2 i α n i1 2yi α βxi 0 yi nα β xi 0 nα yi β xi α yi n β xi n ˆα yβ x Para facilitar o cálculo de ˆβ podemos substituir o valor de ˆα encontrado na equação dos resíduos εi yi ˆα ˆβxi εi yi yβ x ˆβxi εi yi y ˆβxi x O termo yi y representa o desvio de cada yi em relação à média amostral y Dessa forma teremos i desvios que podem ser representados por y i O mesmo se aplica para os desvios de xi no qual temos x i Assim elevando esse termo ao quadrado e somando para todos os valores i n i1 εi2 n i1 y i ˆβx i 2 Minimizando esse termo em relação a β encontraremos ε2 β 2y i ˆβx i x i 0 y i x i ˆβ x i 2 0 65 ANEXO ESTATÍSTICO 165 ˆβ x i 2 y i x i ˆβ y i x i x i 2 ˆβ covyx varx Exercício 61 Utilizando o arquivo regressão simpleswf1 repita os testes e confirme os resul tados apresentados nesse capítulo Exercício 62 Imagine duas regressões distintas eq1 e eq2 que possuem a mesma variável dependente y Onde eq1 é uma regressão simples eq2 possui três variáveis independentes estatisticamente diferentes de zero e a soma dos resíduos ao quadrado de eq2 é maior que a de eq1 Podemos dizer que o R2 de eq2 é maior que o R2 de eq1 pois eq2 explica melhor os movimentos de y Por quê Exercício 63 Em posse do arquivo regressão simpleswf1 adote qxsa como variável depen dente e rode cinco regressões simples utilizando as variáveis pxsa pmsa qmsa ysa e ywsa como explicativa Então escolha o melhor modelo pelo R2 Exercício 64 Em posse do arquivo regressão simpleswf1 adote qxsa como variável depen dente e rode cinco regressões simples utilizando as variáveis pxsa pmsa qmsa ysa e ywsa como explicativa Então escolha o melhor modelo pelo critério de Schwartz Exercício 65 Em posse do arquivo regressão simpleswf1 adote qmsa como variável depen dente e rode cinco regressões simples utilizando as variáveis pxsa pmsa qxsa ysa e ywsa como explicativa Então escolha o melhor modelo pelo critério de HannanQuinn Exercício 66 Considerando a equação qmt α1 β1yt εt onde qmt representa as importa ções de produtos de borracha e material plástico e yt o PIB do Brasil Utilize o método dos mínimos quadrados para encontrar a elasticidade da renda apresente seu intervalo de confiança de 95 e explique se o resultado está de acordo com o esperado Exercício 67 A partir da equação da quantidade importada como função da renda teste se a inclusão de pxsa pmsa qmsa ysa e ywsa são significativas para o modelo Exercício 68 Analise os resíduos na regressão da equação qmt α1 β1yt εt e responda A Os resíduos apresentam distribuição normal B Os resíduos são independentes C Existe autocorrelação nos resíduos D Os resíduos apresentam comportamento homocedástico ou heteroscedástico Exercício 69 Preencha a tabela a seguir com os resultados dos testes de heteroscedasticidade apresentados nesse capítulo Então conclua sobre o padrão de comportamento dos resíduos da 166 Capítulo 6 Regressão Simples regressão na equação qmt α1 β1yt εt Heteroscedasticidade Teste Estatística F Prob F ObsR2 Prob Qui Quadrado BreuschPaganGodfrey Harvey Glejser ARCH 1 lag Exercício 610 Utilize o teste QuandtAndrews para verificar a possível existência de quebra estrutural na regressão qmt α1 β1yt εt Exercício 611 Com o teste de Chow comprove o resultado sobre a existência ou não de quebra estrutural encontrado no exercício anterior Exercício 612 Utilize a estatística F e a razão de verossimilhança do teste RESET de Ramsey para concluir se o modelo está mal especificado na regressão qmt α1 β1yt εt Exercício 613 Teste a existência de outliers na regressão qmt α1 β1yt εt utilizando os testes RStudent DFFITS e COVRATIO Exercício 614 Baseado no coeficiente de desigualdade de Theil escolha qual dos modelos a seguir apresenta o menor erro de previsão A qmt α1 β1ywt εt B qmt α1 β1yt εt C qmt α1 β1yt β2pmt εt D qmt β1yt εt 66 Bibliografia Hodrick R J e Prescott E C 1997 Postwar US business cycles an empirical investiga tion Journal of Money credit and Banking 116 Morais IAC Bertoldi A Anjos ATM 2010 Um modelo nãolinear para as exporta ções de borracha Revista Sober Ramsey J B 1969 Tests for specification errors in classical linear leastsquares regression analysis Journal of the Royal Statistical Society Series B Methodological 350371 7 Regressão Múltipla A passagem da análise de regressão simples para múltipla nada mais é do que acrescentar mais variáveis independentes x resultando em um modelo da forma yt α β1x1 β2x2 βnxn εt Aqui assumimos as mesmas hipóteses relativas aos resíduos que foram feitas anteriormente ou seja que possuem uma média zero E εt 0 variância constante E ε2t σ2 são independentes entre eles E εt εti 0 e também entre as diversas variáveis independentes E εtx t 0 e são distribuídos normalmente εt N0σ2 Uma hipótese adicional importante a ser feita aqui é que as variáveis independentes não possuem uma relação linear determinística Ou seja que as mesmas não possam ser combinadas de maneira a se produzir uma outra série Para exemplificar essa questão suponha um modelo com duas variáveis do tipo yt α β1x1 β2x2 εt se existir colinearidade entre as duas variáveis independentes x1 x2 como por exemplo ax1 bx2 c então podemos dizer que x2 cb ab x1 e o modelo final seria diferente do original yt α β1x1 β2 cb ab x1 εt yt α β1x1 cβ2b ab β2x1 εt yt α cβ2b β1 ab β2 x1 εt ou seja ao invés de estimar α podemos então estimar α cβ2b Além disso ao invés de estimar β seria encontrado β1 ab β2 Portanto se as variáveis independentes forem correlacionadas o modelo irá produzir parâmetros bem diferentes dos originais 168 Capítulo 7 Regressão Múltipla 71 O modelo com duas variáveis independentes Vamos exemplificar o uso da regressão múltipla acrescentando apenas uma variável independente Considere a estimativa de um modelo linear yt ˆa ˆβ1x1 ˆβ2x2 ˆεt onde os resíduos são obtidos a partir de ˆεt yt ˆα ˆβ1x1 ˆβ2x2 e queremos encontrar os parâmetros ˆα ˆβ1 e ˆβ2 Para tanto podemos fazer uso do método dos mínimos quadrados ordinários da mesma forma que foi aplicado para o modelo de regressão simples Ou seja vamos minimizar a soma ao quadrado dos resíduos Q ε2 t minQ minyt ˆα ˆβ1x1 ˆβ2x22 que irá produzir os valores de ˆα ˆβ1 e ˆβ2 tal como a seguir1 ˆα y ˆβ1 x1 ˆβ2 x2 ˆβ1 S22S1y S12S2y S11S22 S2 12 ˆβ2 S11S2y S12S1y S11S22 S2 12 onde definise S11 x2 1 n x12 S22 x2 2 n x22 S1y x1y n x1 y S2y x2y n x22 e Syy y2 ny2 Da mesma forma que para a regressão simples além dos coeficientes estimados na regressão múltipla também é possível encontrar as seguintes estatísticas Soma ao quadrado dos resíduos RSS Syy ˆβ1S1y ˆβ2S2y Soma ao quadrado da regressão ESS ˆβ1S1y ˆβ2S2y Soma ao quadrado total TSS ESSRSS Syy Coeficiente de determinação ESS TSS R2 12 ˆβ1S1y ˆβ2S2y Syy Destacase que o valor de RSS é a parte da regressão que não é explicada pelo modelo com duas variáveis ou seja está relacionada ao resíduo2 Já ESS define a parte explicada Dessa forma a soma da parte explicada com a não explicada nos fornece o total ou seja TSS Por fim relacionando a parte explicada com o total temos a parcela da variável dependente que é explicada pelo modelo ou seja o R2 12 Assim como no modelo de regressão simples aqui podemos encontrar as estatísticas associadas a cada parâmetro Porém devido o fato de se ter mais de uma variável independente é necessário considerar a relação que existe entre elas Para tanto usamos o coeficiente de correlação ao 1Os passos para se encontrar essas relações podem ser vistos em qualquer livro texto de econometria 2Como pode ser visto a diferença entre esse resultado e o encontrado para o modelo de regressão simples com uma única variável dependente devese a ˆβ2S2y 71 O modelo com duas variáveis independentes 169 quadrado3 que no caso de duas variáveis é dado por r2 12 ρ2 O conjunto de equações que irá determinar as estatísticas dos coeficientes do modelo de regressão múltipla são dadas por ˆσ2 ˆβ1 ˆσ2 S111r2 12 ˆσ2 ˆβ2 ˆσ2 S221r2 12 cov ˆβ1 ˆβ2 ˆσ2r2 12 S121r2 12 e ˆσ2 ˆα ˆσ2 n x12σ2 ˆβ1 2x1 x2cov ˆβ1 ˆβ2 x2 2σ2 ˆβ2 tal que o coeficiente de correlação entre x1 e x2 é dado por r12 Um resultado interessante aqui é que quanto maior for a correlação entre as duas variáveisx1 e x2 mantendo tudo o mais constante maior será o r2 12 Como r2 12 também está presente no cálculo da variância de ˆβ1 e ˆβ2 então quanto maior for a correlação entre as duas variáveis maior será a variância desses parâmetros Da mesma forma como a variância de ˆβ1 e ˆβ2 fazem parte do cálculo da variância de ˆα podemos inferir que uma maior correlação entre as variáveis independentes irá resultar em maior variância do intercepto Portanto uma elevada correlação entre as variáveis independentes torna insignificante a estimativa de seus coeficientes Por fim enquanto no modelo de regressão simples os graus de liberdade utilizados para se fazer os testes estatísticos eram dados por n2 no modelo de regressão múltipla com 2 variáveis independentes temse n3 No limite para k variáveis independentes teremos que os graus de liberdade são dados por nk 1 Vejamos como seria o exemplo da estimativa de um modelo de regressão múltipla acrescentando apenas uma variável ao modelo de regressão simples feito anteriormente Nesse caso escolhemos adicionar os preços praticados pelo exportador dado por pxt mas ajustado sazonalmente e a nossa equação ficaria qxt α1 β1ywt β2pxt εt 71 Tal como antes temos duas formas distintas de estimar essa equação como mostrado na Figura 71 A primeira seria selecionando a variável dependente e a seguir todas as outras independentes Depois clique em open as equation abrindo a janela da Figura 71a A segunda forma seria selecionar quick estimate equation e escrever a equação conforme a Figura 71b As duas formas de estimativa irão conduzir ao mesmo resultado e o EViews R irá mostrar um conjunto de informações como mostrado na Figura 72 Como sugestão prefira estimar conforme a Figura 71a pois tal procedimento é condição necessária para realizar alguns testes no futuro Note que aparece um coeficiente a mais na nossa equação Nesse caso o c3 que é o parâmetro relacionado ao preço de exportação pxt Todas as demais estatísticas informadas são iguais ao modelo de regressão simples mas com algumas diferenças na interpretação Para mostrar esse resultado em formato de equação usamos qxt 216254 100968 15312 01854 ywt 04280 00851 pxt εt onde entre parênteses ficam descritos os valores dos respectivos desviopadrão Tal qual nos resultados apresentados para o modelo de regressão simples na coluna especificada como StdError estão os desviospadrão de cada parâmetro Depois a estatística t tstatistic e o pvalor Prob A primeira é utilizada para testar se o seu respectivo parâmetro é estatisticamente diferente de zero a partir da fórmula t x µ σ 3Repare a diferença que existe entre R2 12 e r2 12 O primeiro representa a relação entre as duas variáveis independentes e a dependente Por outro lado r2 12 está relacionado apenas à relação que existe entre as variáveis independentes 170 Capítulo 7 Regressão Múltipla a b Figura 71 Como estimar uma regressão múltipla Figura 72 Resultado da Regressão Múltipla Por exemplo podemos testar se o parâmetro da elasticidadepreço da demanda é estatisticamente igual a zero β2 0 a partir de t β2 0 σβ1 04280 0085071 50314 Por fim o resultado do Prob irá indicar se aceitamos ou rejeitamos a hipótese nula de que o coeficiente em questão é estatisticamente igual a zero Destacase que para esse teste estamos assumindo uma distribuição tstudent No nosso exemplo tanto para o coeficiente da constante quanto para o da renda rejeitamos a hipótese nula de que são estatisticamente iguais a zero Programação 711 Tal qual na regressão simples a outra forma de estimar um modelo de regressão múltipla é via programação apenas acrescentando o nome das novas variáveis a serem utilizadas Vejamos o exemplo de se ter uma regressão com duas variáveis independentes adicionando apenas os preços internacionais pxt 71 O modelo com duas variáveis independentes 171 Smpl 2000m01 2015m07 equation eq1ls qxsa ywsa pxsa c A estatística t e seu respectivo teste podem ser aplicados a partir de uma programação tal qual mostrado na regressão simples Nesse caso queremos testar se β2 0 Primeiro especificamos a estatística t e armazenamos a mesma em um escalar de nome estatisticat A seguir criamos uma tabela com três linhas e uma coluna de nome testet e armazenamos na primeira linha o valor de estatisticat na segunda linha o pvalor e na terceira linha uma variável string que irá nos dizer se aceitamos ou rejeitamos a hipótese nula Para fazer isso usamos o comando if e também como nível de significância 5 scalar estatisticateq1tstats2 table31 testet testet11estatisticat teste21tdistestatisticat157 if testet21005 then estet31aceitamos h0 else estet31rejeitamos h0 endif Além desses resultados básicos tal qual no modelo de regressão simples há diversos outros que são mostrados logo abaixo e que servem para avaliar o modelo em questão O Rsquared conhecido como R2 tem um valor de 0437990 mas deve ser interpretado de maneira diferente ao valor encontrado para o R2 do modelo de regressão simples Aqui dizemos que cerca de 4380 das variações em qx são explicadas por variações em yw e px A fórmula é tal como antes e dada por R2 1 T t1 ˆε2 t T t1yt y2 onde T t1 ˆε2 t é denominado de soma do quadrado dos resíduos sum squared resid e no nosso exemplo tem valor de 3203126 Tal qual na regressão simples o termo T t1yt y2 representa o quanto a variável dependente desvia em relação à sua média ou então mantendo a notação anterior é o mesmo que Syy Σy2 ny2 Antes de prosseguir no cálculo cabe destacar que para realizar a regressão o EViews R precisou ajustar a amostra como visto na Figura 72 em Sample adjusted 2000M01 2015M07 Essa alteração é feita pois em algumas das séries utilizadas faltam as observações anteriores a janeiro de 2000 como a série ywsa Assim para encontrar o valor de Syy utilizase a média da variável dependente nesse período representada na Figura 72 por Mean dependent var No presente caso a média da variável dependente é 8516810 E se fizermos o quadrado da diferença de cada observação da variável dependente em relação a sua média e somarmos encontraremos 5699414 Assim R2 1 3203126 5699414 0437990284 O valor de R2 ajustado Adjusted Rsquared corrigide pelo número de coeficientes k que estão sendo utilizadas no modelo Sua fórmula geral é dada por R2 11R2T 1 T k e aplicando para os dados do modelo Rˆ2 1 1 0 437990 187 1 187 3 0 431881483 No caso da regressão simples o R2 tem uma interpretação direta Porém na regressão múltipla podemos estar interessados não em identificar quanto o modelo é explicado pelas variáveis independentes mas sim quanto que cada variável explica o modelo Nesse caso usamos a estatística de correlação parcial dada por Ryx2 tx2 tx2 T k onde tx é a estatística t do coeficiente x T é o número de observações e k o número de parâmetros do modelo completo Suponha por exemplo que na nossa regressão acima se queira determinar o efeito da elasticidaderenda da demanda ywsa mantendo todas as demais variáveis independentes constantes eliminando o impacto que β2 tem sobre β1 Assim usamos R2qxyw tyw2 tyw2 T k R2qxyw 825922 82592 2 187 3 0 270460 Para o caso de se querer saber o impacto apenas da elasticidadepreço usamos R2qx px 5 03142 5 0314 2 187 3 0 120943 Portanto note que a elasticidade tem uma capacidade explicativa mais do que o dobro da variável preço A soma de ambas dá 039 de um total de 043 do valor de R2 O desviopadrão da regressão SE of regression na Figura 72 é dado por σ σ ˆ2 RSS T k onde além do número de observações T e do número de parâmetros k temos RSS como a soma ao quadrado dos resíduos Na regressão representada pela Equação 71 que temos como exemplo o desviopadrão da regressão será dado por σ 32031 26 187 3 13 19405 A estatística do log da verossimilhança log likelihood e os critérios de comparação de Akaike Schwarz e HannanQuinn são feitos da mesma forma que para a regressão simples Por isso não entramos no detalhe desses resultados E estatística F também é calculada da mesma forma mas sua interpretação é feita de maneira diferente Nesse caso como a nossa regressão tem três parâmetros o testeF está testando na hipótese nula se α1 β1 β2 0 Pelos resultados apresentados no teste F onde seu pvalor0 não podemos aceitar a hipótese nula Nesse caso os parâmetros em conjunto são estatisticamente diferentes de zero 71 O modelo com duas variáveis independentes 173 Programação 712 Como forma de ilustrar cada uma das funções que são utilizadas para gerar as estatísticas apresentadas acima essa rotina monta uma tabela com quatro colunas e 8 linhas e a seguir especifica cada estatística e coloca a mesma de tal forma que seja possível comparar com os resultados apresentados pelo EViews R Note que na última linha oitava linha foi colocada a correlação parcial primeiro da elasticidaderenda e depois da elasticidadepreço Smpl 1997m1 2015m09 equation eq1ls qxsa c ywsa pxsa table84 result result11R2 result12eq2r2 result21R2 ajustado result22eq2rbar2 result31erro padrão da regressão result32eq2se result41Soma dos resíduos ao quadrado result42eq2ssr result51Log da verossimilhança result52eq2logl result61estatística F result62eq2f result71pvalor da estatística f result72eq2fprob result13média da variável dependente result14eq2meandep result23desviopadrão da variável dependente result24eq2sddep result33Akaike result34eq2aic result43Schwarz result44eq2schwarz result53HannanQuinn result54eq2hq result63Durbinwatson result64eq2dw result81parcela explicada por yw scalar ryweq2tstats22eq2tstats22eq2regobseq2ncoef result82 ryw result83parcela explicada por px scalar rpxeq2tstats32eq2tstats32eq2regobseq2ncoef result84 rpx Com os resultados da equação abertos podemos ver o gráfico clicando em Resids ou View Actual Fitted Residual Actual Fitted Residual Graph Observando a Figura 73 note que agora nosso modelo erra menos do que no modelo de regressão simples demonstrado na Figura 65 e que também pode ser comprovado pelo resultado do R2 A estimativa dos valores para cada período é feita tal como no modelo de regressão simples Só que agora temos uma variável a mais para especificar como demonstrado pela Equação 71 do modelo de regressão múltipla Nesse caso vejamos como é a estimativa do valor de qx para janeiro 174 Capítulo 7 Regressão Múltipla Figura 73 Resultado do Modelo de Regressão Múltipla de 2003 qxt 216254 100968 15312 01854 ywt 04280 00851 pxt εt Naquela data temos os seguintes valores para as variáveis independentes ywjan2003 1917077 e pxjan2003 1904287 Substituindo esses valores na equação acima encontramos qx jan2003 216254 100968 15312 01854 191707704280 00851 1904287 195050 A seguir todos os procedimentos de diagnósticos dos coeficientes ou então dos resíduos pode ser feito tal como no modelo de regressão simples Por isso não iremos apresentálos aqui Programação 713 O loop a seguir pode ser usado para rodar várias regressões e colocar os resultados em uma tabela permitindo que se faça a escolha do melhor modelo através do R2 e dos critérios de comparação smpl 1997m01 2015m09 table55 modelos modelos12eq1 modelos13eq2 modelos14eq3 modelos15eq4 modelos21R2 modelos31akaike modelos41Schwarz modelos51HannanQuinn equation eq1ls qxsa c ywsa equation eq2ls qxsa c ywsa pxsa equation eq3ls qxsa c ywsa pxsa pxwsa equation eq4ls qxsa c ywsa pxsa pxwsa esa 72 Previsão Forecast 175 for i1 to 4 modelos2i1eqir2 modelos3i1eqiaic modelos4i1eqischwarz modelos5i1eqihq next Os testes de diagnóstico de estabilidade tal como o Teste de Chow Teste de QuandtAndrews Teste de Previsão de Chow Teste de Ramsey estimativas recursivas e estatísticas de influência podem ser aplicados da mesma forma apresentada no capítulo de Regressão Simples A sua interpretação também é feita da mesma forma 72 Previsão Forecast A previsão em modelos de regressão múltipla pode ser feita tal como nos modelos de regressão simples Com a equação aberta selecione Forecast escolha um nome para a série de resultados da previsão aqui usamos qxsaf e um nome para a série do desviopadrão usamos qxsef Por fim selecione o intervalo de previsão e clique em ok No resultado tal como mostrado na Figura 74 podemos ver a série de previsão com seu respectivo intervalo de confiança com 2 desvios Para comparação dos resultados do modelo de regressão simples com o modelo de múltiplas variáveis observase as estatísticas de erro de previsão RMSE MAE e MAPE Enquanto os resultados de RMSE MAE e MAPE da regressão simples foram respectivamente 189004 161485 e 238140 a Figura 74 apresenta os resultados dessas estatísticas de previsão para o modelo de regressão múltipla com as variáveis independentes pxsa e ywsa Assim as estatísticas de previsão mostram que em comparação com o modelo de regressão simples o modelo com duas variáveis adere melhor aos dados apesar dos resultados ainda estarem longe do ideal Figura 74 Previsão do modelo de regressão múltipla Programação 721 Também podemos fazer uma previsão de um modelo de regressão múltipla via programa A primeira linha determina a equação de regressão onde colocamos primeiro a variável dependente e a seguir as independentes A seguir é especificado o período para a previsão No exemplo abaixo colocamos para todo o período amostral Por fim é feita a previsão para a equação e o resultado colocado na série qxsaf juntamente com o desvio padrão com nome qxsef Esse último irá permitir que seja construído o intervalo de confiança da previsão referente aos comonados series min e series max 176 Capítulo 7 Regressão Múltipla equation eq1ls qxsa c ywsa pxsa smpl 1997m01 2015m09 eq1forecast qxsaf qxsef series minqxsaf2qxsef series maxqxsaf2qxsef 73 Método STEPLS A programação não é a única maneira de se fazer várias regressões testes e a aplicação de diversas outras ferramentas estatísticas no EViews R Também podemos aplicar o método STEPLS A partir deste várias equações são estimadas considerando as variáveis em questão e fornecidos os resultados para que seja selecionada a melhor Para no nosso exemplo temos cinco variáveis que podem ser combinadas de várias formas Além do quantum de exportações do setor de produtos de borracha e materiais plásticos qxsa do PIB mundial ywsa e do índice de preços das exportações desse setor pxsa temos o PIB brasileiro ysa o índice de preço das importações pmsa e o quantum das exportações do setor de produtos de borraça e material plástico qmsa As mesmas estão no arquivo 07rmwf1 Os mesmos já estão ajustados sazonalmente Nosso objetivo é encontrar a melhor equação linear com no máximo cinco variáveis independentes Como já foi demonstrado para estimar uma equação podemos selecionar as varáveis e abrir como equação ou via quick estimate equation e escrever a equação que queremos estimar A seguir na opção method selecione STEPLS Stepwise Least Squares Na parte onde é possível especificar a variável dependente coloque qxsa e a constante depois na parte da lista dos repressores especifique todas as demais independentes conforme a Figura 75a Na aba options podemos escolher diversas formas de estimação conforme Figura 75b Vamos começar selecionando stepwise forwards A diferença entre os opções de forwards e backwards está na adição ou remoção de variáveis independentes com o menor pvalor ou maior estatística t na equação conforme critério definido Além disso também é possível selecionar o método unidirectional swapwise e combitional O método unidirecional adiciona forward ou remove backward variáveis até que o menor pvalor das variáveis não incluídas ser maior que o critério de parada definido O método stepwise nada mais é que uma combinação da rotina unidirecional forward e backward No método swapwise é necessário optar por máximo ou mínimo incremente ao R2 Esse método busca maximizar o R2 sendo que o Max RSquared Increment adiciona as variáveis que mais contribuem para o aumento do R2 e o Min RSquared Increment adiciona as variáveis que menos contribuem para o incremento do R2 O método combitional testa todas as combinações de variáveis e seleciona o modelo com maior R2 Esses métodos serão explorados na próxima subseção onde haverá uma explanação mais detalhada para cada um deles Na opção de critério de parada Stoping Criteria definimos se o método irá ser coordenado pelo menor pvalor ou maior resultado da estatística t Essa opção só aparece para o método unidirecional e stepwise No nosso exemplo utilizando o stepwise forward coloque 0001 para o pvalor forwards e deixe o resto tal como sugerido Um ponto importante nesse passo é a opção use number of regressors utilizada em todos métodos Se colocarmos o valor 1 o melhor modelo terá apenas uma variável independente Se selecionarmos o valor 2 o melhor modelo terá duas variáveis independentes Se não selecionarmos essa opção o procedimento irá determinar o número de variáveis independentes a serem consideradas O resultado será a seleção de uma equação com todos os coeficientes O método stepwise inicia no nosso exemplo com uma regressão da forma qxt cεt 73 Método STEPLS 177 a Estimando regressão pelo método STEPLS b Opções do método STEPLS Figura 75 Método STEPLS A seguir é inserida uma variável independente gerando mais quatro regressões simples cada uma com uma constante Por exemplo será feita uma regressão com o seguinte formato abaixo onde a variável independente é yw qxt cβ1ywsaεt As demais regressões simples irão ter uma constante e uma variável independente diferente Dessa forma teremos uma regressão apenas com pxsa como variável independente e assim sucessivamente De acordo com os nossos dados o modelo final sugerido é dado por qxt cβ1ywsaβ2ysaβ3qmsaβ4pxsaεt No resultado Figura 76 da estimativa podemos ver que o método manteve apenas uma variável em todas as regreções Number of always included regressors a constante e que o total de variáveis independentes foi 4 O método de seleção é o Stepwise forwards e o critério de inclusão é o pvalor ao nível de 0001 Note que todos os coeficientes são estatisticamente diferentes de zero e as demais estatísticas podem ser interpretadas de forma igual ao que vimos em modelos de regressão por mínimos quadrados Além disso percebemos que a variável pmsa não foi adicionada à regressão pois o pvalor ficava acima do critério determinado Em comparação com as outras regressões apresentadas destacamos o resultado do R2 de 08659 maior que a regressão simples e a regressão múltipla apenas com as variáveis ywsa e pxsa Programação 731 O método STEPLS pode ser feito via programação O default é o método stepwise para utilizar as outras opções utilizamosmethod uni para o unidirectional text swapwise ou comb combinatorial De qualquer forma vamos utilizar o padrão stepwise O procedimento forward também é default não sendo necessário especificar o mesmo Caso contrário podemos especificar back No critério de seleção o pvalor é default e de outra forma podemos escolher tstat Para definir os critério utilizamos ftol0001 para o critério forward sem termos que utilizar btol 05 para o critério backward pois este é o valor padrão O procedimento acima pode ser feito via eq1steplsmethodstepwise ftol0001 qxsa c ywsa ysa qmsa pxsa 178 Capítulo 7 Regressão Múltipla Figura 76 Resultado do método STEPLS 731 Os métodos de Seleção STEPLS Dentro do procedimento de escolha do melhor modelo de regressão é possível selecionar dentre vários tipos de métodos sendo que os mesmos podem ser divididos entre forward e backward e também tendo como opção de seleção das variáveis o pvalor ou a estatística t A seguir fazemos uma breve explanação sobre esses métodos Unidirecional Esse processo pode ser utilizado tanto para adicionar variáveis ao modelo forward quanto para retirar backward e nesse caso a decisão é feita com base ou no pvalor ou na estatística t sendo necessário escolher qual o critério de decisão para essas duas estatísticas Suponha que seja o pvalor Com essa opção o modelo começa como uma regressão simples rodando várias regressões com diferentes combinações sempre tendo apenas uma variável A variável com menor pvalor fica A seguir são feitas regressões múltiplas adicionando mais uma variável dentre todas as que foram especificadas Aquela que atender o critério estabelecido e tiver o menor pvalor é acrescentada ao modelo O procedimento continua até que não seja mais possível adicionar variável que atenda aos critérios especificados pvalor e número de passos Maximum steps Já no método unidirecional backwards o procedimento se inicia com todas as variáveis e vai retirando aquelas com maior pvalor até que restem apenas aquelas que atendam aos critérios especificados Nesse caso como o método é backward é utilizado o critério Maximum steps backwards Esse procedimento é complementado com a escolha da opção User Number of Regressors que 73 Método STEPLS 179 determina quantas variáveis devem constar no modelo final Se não selecionar essa opção o modelo irá conter o máximo de variáveis que atendem as especificações anteriores Caso contrário se o mesmo for selecionado podemos especificar quantas variáveis queremos que o modelo final tenha Stepwise Da mesma forma que no método unidirecional o método Stepwise pode ser escolhido com a opção de forwards e backwards Independente da escolha da opção o fato é que o método Stepwise é uma combinação do método unidirecional forward com o unidirecional backward O que muda é a ordem de execução da seleção e escolha das variáveis Por exemplo suponha que se tenha escolhido o método Stepwise forward com opção de pvalor Aqui o processo começa sem variável são feitas diversas regressões simples ou seja adicionando apenas uma variável A seguir aquela que apresentar o menor pvalor é mantida no modelo O procedimento se repete testando todas as demais variáveis e escolhendo aquela que também irá ter o menor pvalor Nesse momento teremos um modelo com duas variáveis independentes Antes de testar a terceira variável é feito o procedimento backward no modelo com duas variáveis independentes Se alguma delas não atender ao critério do pvalor ou estatística t é removida No passo seguinte é escolhida a terceira variável a ser adicionada no modelo e que deve atender aos critérios especificados pvalor ou estatística t Escolhida essa terceira variável é feito novamente o procedimento backward com o modelo tendo três variáveis para confirmar as mesmas A seguir para toda e qualquer variável que se queira acrescentar ao modelo é feito o mesmo procedimento primeiro testando forward e a seguir backward Podemos comparar o resultado do métodoStepwise forward com o método backward para ver se encontramos o modelo com o mesmo número de variáveis Pra tanto selecione backward e o critério de seleção que pode tanto ser o pvalor quanto a estatística t Destacase que o método Stepwise backward é exatamente o contrário do Stepwise forward Primeiro todas as variáveis são inseridas no modelo e a que tiver o maior pvalor é excluída A seguir dentro daquelas que ficaram no modelo é feita a investigação forward para confirmar a presença das mesmas O procedimento se repete e as variáveis que foram excluídas são verificadas pelo método forward Se alguma delas tiver um pvalor mais baixo ou uma estatística t maior é inserida novamente no modelo O procedimento se repete até que todos os critérios sejam atendidos Swapwise Esse método utiliza dois importantes critérios de escolha a estimativa do R quadrado para fazer a seleção do melhor modelo dividindo a escolha entre um incremento máximo ou mínimo e o número de variáveis independentes a considerar Vejamos como é o exemplo do método via R quadrado máximo O procedimento se inicia sem variável independente e após feitas várias regressões simples é escolhida aquela que maximiza o R quadrado A seguir são testadas as demais variáveis adicionando uma a uma no modelo A que gerar o maior incremento no R quadrado permanece Para confirmar a presença dessas duas variáveis as mesmas são comparadas com cada uma das que estão fora do modelo Ou seja imagina que temos uma regressão do tipo yt cβ1x1t β2x2t εt Para confirmar a presença dessas variáveis são feitas regressões do tipo yt cβ1x1t β3x3t εt e também yt cβ2x2t β3x3t εt 180 Capítulo 7 Regressão Múltipla e assim sucessivamente para todas as variáveis que não estavam no modelo básico Isso é feito para ver se as diferentes combinações não gera um R quadrado incremental maior Uma vez descoberta a melhor combinação com duas variáveis o procedimento continua para a terceira variável que gera o melhor incremento no R quadrado A seguir partindo de um modelo de três variáveis independentes são feitas várias combinações para descobrir qual gera o melhor incremento no R quadrado De outra forma se escolhermos o método Swapwise com R quadrado mínimo o procedimento é parecido com o que considera o R quadrado máximo A diferença é que na hora de testar as diferentes combinações o procedimento é feito escolhendo aquela que gera o menor incremento no R quadrado Combinatorial Nesse método devemos especificar quantas variáveis independentes queremos testar no modelo e as mesmas são testadas em várias combinações e é selecionada aquela combinação que produz o maior R quadrado Esse método é o que requer o maior número de estimativas e dependendo do número de variáveis a serem especificadas o resultado pode demorar em ser fornecido 74 Bibliografia Hamilton J 1994 Linear Regression Model In Time Series Analysis Prince ton University Press pp 200 232 Wansbeek T e Meijer E 2008 Measurement error and latent variables In Baltagi B H Ed A companion to theoretical econometrics John Wiley Sons pp 162 179 Referências Bibliográficas 1 Lawrence J Christiano and Terry J Fitzgerald The band pass filterInternational Economic Review 442435465 2003