·

Ciências Econômicas ·

Econometria

Send your question to AI and receive an answer instantly

Ask Question

Preview text

APRESENTAÇÃO VARIÁVEIS DUMMY NA REGRESSÃO Profa Dra Daniela Müller de Quevedo VARIÁVEIS DUMMY NA REGRESSÃO CONCEITOS BÁSICOS Na análise de regressão a variável dependente pode ser influenciada por variáveis quantitativas e qualitativas As variáveis quantitativas são facilmente mensuradas em alguma escala o que não ocorre com as variáveis qualitativas uma vez que essas indicam a presença ou a ausência de uma qualidade ou atributo Dessa forma um método para quantificar esses atributos é construir variáveis artificiais que assumam valores de 1 ou 0 indicando ausência de um atributo e indicando a sua presença que são conhecidas pela literatura existente de variáveis dummy A introdução de variáveis qualitativas dummy torna o modelo de regressão linear uma ferramenta extremamente flexível capaz de lidar com muitos problemas encontrados principalmente em estudos empíricos VARIÁVEIS DUMMY NA REGRESSÃO Iniciaremos trazendo o conceito de variáveis dummy Variáveis dummy são variáveis binárias 0 ou 1 criadas para representar uma variável com duas ou mais categorias Vale lembrar que a variável dummy representa estados ou níveis de fatores ou seja representa algo que não possui valores numéricos ou caso possua estes valores não têm realmente um significado numérico VARIÁVEIS DUMMY Assim uma variável dummy D pode ser descrita da seguinte maneira 𝐷0 1 Se a característica não estiver presente Se a característica estiver presente EXEMPLOS Se quiséssemos incluir a variável sexo em um modelo de regressão linear teríamos que transformar artificialmente a variável sexo em uma variável dummy Deste modelo teríamos dummysexo 1 em caso de sexo feminino dummysexo 0 em caso de sexo masculino Em um caso de variável com 3 ou mais categorias seria necessário criar sempre n1 dummies por exemplo no caso de incluir a variável estado considerando Rio Grande do SulRS Santa CatarinaSC e ParanáPR no modelo teríamos dummyRS 1 quando São Paulo e 0 nos demais dummySC 1 quando Rio de Janeiro e 0 nos demais O número de variáveis dummies sempre será n1 categorias e isso acontece pois a última variável será a exclusão das demais Neste exemplo o fator PR acontece quando dummyRS e dummySC for 0 Quando devemos usar uma variável dummy na regressão As variáveis dummys devem ser utilizadas sempre que desejarmos incluir variáveis categóricas em modelos que aceitam apenas variáveis numéricas Um ponto de atenção que se deve tomar quando se cria as variáveis dummys é com variáveis que aparentam ser numéricas mas na verdade são categóricas O caso mais comum para este tipo de ocorrência ocorre quando a base de dados utiliza codificação para categorias No caso da utilização da codificação das categorias como por exemplo 1 RS 2SC 3PR na modelagem o modelo será enviesado arbitrariamente pela relação entre os códigos onde no exemplo PR seria equivalente a 3 vezes RS VARIÁVEIS DUMMY NA REGRESSÃO O MODELO DE REGRESSÃO COM UMA VARIÁVEL DUMMY ε Onde é uma variável quantitativa independente no modelo é uma variável dummy com as condições 1 característica presente e 0 característica ausente Quando 1 então ε 0 então ε Esse modelo pode ser generalizado por n variáveis quantitativas independentes e n variáveis dummy EXEMPLO 1 Um grupo de 10 programadores foi avaliado de acordo com um teste de aptidão escala de 0 a 100 pósgraduação e salário hora trabalhada Com o objetivo de avaliar o salário em relação às demais variáveis de estudo foi realizado um estudo de regressão múltipla Onde a variável dummy foi definida como 1 com especialização e 0 sem especialização O modelo de regressão estimado foi dado por Nesse caso quando Quando D 1 Quando D 0 VARIÁVEIS DUMMY NA REGRESSÃO 10097 100971 9220 100970 O coeficiente da aptidão indica que em média a cada ponto acrescido na aptidão observamos um aumento médio no salário hora de 0545 O coeficiente da variável dummy D indica que ter uma pósgraduação D 1 indica um aumento médio na salário hora de 10097 EXEMPLO 2 Um grupo de 10 programadores foi avaliado de acordo com o tempo de experiência anos teste de aptidão escala de 0 a 100 pósgraduação sim 1 não 0 e salário hora trabalhada Com o objetivo de avaliar o salário em relação às demais variáveis de estudo foi realizado um estudo de regressão múltipla Assim como trabalhado na análise de regressão múltipla podemos utilizar o Excel para estimar os coeficientes e demais estatísticas do modelo de regressão Programador Experiência Teste Aptidão Pós grad Salário 1 4 78 0 24 2 7 100 1 43 3 1 86 0 237 4 5 82 1 343 5 8 86 1 358 6 10 84 1 38 7 0 75 0 222 8 1 80 0 231 9 6 83 0 30 10 12 97 1 48 Estatística de regressão R múltiplo 0986927 RQuadrado 0974025 ANOVA gl SQ MQ F F de significação Regressão 3 7250926 2416975 7499777 38E05 Resíduo 6 1933638 322273 Total 9 744429 Coeficientes Erro padrão Stat t valorP Interseção 12013 8121109 147923 0189567 Experiência 0961582 0255727 376019 0009396 Teste Aptidão 0426681 0102593 4158969 0005951 Pósgrad 5439705 1914543 2841256 0029518 Os coeficientes das variáveis independentes são significativos p005 Logo a expressão da regressão linear múltipla representada por 1201 096XExper 043XAptid 544DPós EXEMPLO 3 Um grupo de 29 programadores foi avaliado de acordo com o tempo de experiência anos teste de aptidão escala de 0 a 100 nível educacional e salário hora trabalhada Com o objetivo de avaliar o salário em relação às demais variáveis de estudo foi realizado um estudo de regressão múltipla Assim como trabalhado na análise de regressão múltipla podemos utilizar o Excel para estimar os coeficientes e demais estatísticas do modelo de regressão Nesse caso a variável dummy Pósgraduação será avaliada considerando as categorias Graduação Mestrado e Doutorado O modelo de regressão será dado por Grau D1 D2 Graduação 0 0 Mestrado 1 0 Doutorado 0 1 Para Mestrado 1 Para Doutorado 1 Para Graduação 𝑌 𝑠𝑎𝑙𝑎0𝑎1𝑥𝐸𝑥𝑝𝑒𝑟 𝑎2𝑥 𝐴𝑝𝑡 EXEMPLO 3 CONTINUAÇÃO Um grupo de 29 programadores foi avaliado de acordo com o tempo de experiência anos teste de aptidão escala de 0 a 100 nível educacional e salário hora trabalhada Com o objetivo de avaliar o salário em relação às demais variáveis de estudo foi realizado um estudo de regressão múltipla Assim como trabalhado na análise de regressão múltipla podemos utilizar o Excel para estimar os coeficientes e demais estatísticas do modelo de regressão Estatística de regressão R múltiplo 0964773 RQuadrado 0930787 ANOVA gl SQ MQ F F de significação Regressão 4 1126593 2816483 8068833 147E13 Resíduo 24 837737 3490571 Total 28 1210367 Coeficientes Erro padrão Stat t valorP Interseção 1018956 4572065 2228657 0035461 Experiência 1108153 0158973 6970683 33E07 Teste Aptidão 0159984 0057667 2774244 001054 Mestrado 2688415 0945941 2842053 0009003 Doutorado 6308453 1642642 3840431 0000788 Em interpretação aos coeficientes da variável Dummy podese afirmar que o mestrado acarreta um aumento médio no salário hora de 269 enquanto que o doutorado um aumento médio de 631 Os coeficientes das variáveis independentes são significativos p005 VARIÁVEIS TRUNCADAS CONCEITOS BÁSICOS Em algumas situações numa amostra a variável de interesse não pode ser observada em todo o seu domínio ou não é observada para alguns dos indivíduos que a integram Por exemplo em sistemas de tributação do rendimento que dispensam da obrigatoriedade de apresentação da declaração anual os agregados familiares com rendimento inferior a certo montante uma amostra colhida com base nas declarações apresentadas não poderá incluir famílias de baixo nível de rendimento De modo análogo em análises dos determinantes da duração do desemprego obter de alguns inquiridos os que continuam desempregados no momento do inquérito informação quanto à extensão mínima do seu período de inatividade Numa amostra truncada todas as observações são completas são conhecidos os valores das variáveis dependente e independentes para todos os indivíduos selecionados mas a amostra respeita somente a um segmento do universo de interesse VARIÁVEIS TRUNCADAS Oliveira 2004 No caso do truncamento há alguma limitação imposta à mensuração da variável dependente impedindo que observemos observações com valores inferiores truncamento à esquerda ou superiores truncamento à direita da variável dependente Assim essas observações não farão parte da amostra 78 79 80 81 82 83 84 85 4 45 5 55 6 65 7 75 8 Apenas as observações em amarelo farão parte da amostra EXEMPLO 4 Uma amostra contém informações de alunos de uma turma especial formada apenas por aqueles que conseguem avaliação de desempenho superior a 40 Suponha que a partir dessa amostra desejese estudar a relação entre as notas de matemática e a avaliação de desempenho do aluno Truncamento à esquerda Maia 2021 Caso não consideremos que alunos com avaliação de desempenho inferior a 40 foram excluídos da amostra estaremos obtendo estimativas viesadas da real relação entre as notas de matemática e a avaliação de desempenho dos alunos EXEMPLO 5 Suponha que desejamos avaliar a influência da experiência profissional no rendimento de agricultores familiares em condição de vulnerabilidade As análises basearamse em uma amostra de beneficiários de um determinado programa social cuja renda per capita máxima para fazer parte do mesmo é de 100 reais Truncamento à direita Maia 2021 Para podermos estabelecer as relações para o conjunto da população de pobres devemos considerar que nossa amostra exclui aqueles com renda per capita superior a 100 Ou seja há um truncamento à direita das observações EXEMPLO 6 Uma amostra contém informações de alunos de uma turma especial formada apenas por aqueles que conseguem avaliação de desempenho superior a 40 Suponha que a partir dessa amostra desejese estudar a relação entre as notas de matemática e a avaliação de desempenho do aluno Observamos no Exemplo 4 que nessa situação estamos com um truncamento a esquerda Caso desejássemos estimar a relação entre as notas de matemática e a avaliação de desempenho para o conjunto da população seria fundamental considerar a exclusão de alunos com avaliação inferior a 40 O modelo de regressão nesse caso será dado por 𝑌 h 𝐷𝑒𝑠𝑒𝑚𝑝𝑒𝑛 𝑜𝑎0𝑎1 𝑋 𝑀𝑎𝑡𝑒𝑚á𝑡𝑖𝑐𝑎𝜀 Aplicando o ajuste tradicional pelo método dos mínimos quadrados 𝑌 h 𝐷𝑒𝑠𝑒𝑚𝑝𝑒𝑛 𝑜24 8555 𝑋 𝑀𝑎𝑡𝑒𝑚 á𝑡𝑖𝑐𝑎𝜀 Aplicando o ajuste para dados truncados 𝑌 h 𝐷𝑒𝑠𝑒𝑚𝑝𝑒𝑛 𝑜10 47 87 𝑋 𝑀𝑎𝑡𝑒𝑚 á𝑡𝑖𝑐𝑎𝜀 O modelo de regressão com dados truncadas obtém estimativas não viesadas para a relação entre notas de matemática e desempenho apenas para desempenho superior a 40 o que não seria possível utilizando o ajuste tradicional Para realizar as estimativas dos parâmetros do modelo para variáveis truncadas tradicionalmente utilizamos softwares que em sua modelagem oportunizam o truncamento da variável Um exemplo é o pacote estatístico SAS Maia 2021 GUJARATI Damodar Econometria princípios teoria e aplicações práticas São Paulo Saraiva 2019 1 recurso online ISBN 9788553131952 MAIAAG Econometria II Variáveis Censuradas e Truncadas Notas de aula 2021 Disponível em httpwww4ecounicampbr Acessado em 12 de outubro de 2021 WOOLDRIDGE Jeffrey M Introdução à econometria uma abordagem moderna 3 São Paulo Cengage Learning 2018 1 recurso online ISBN 9788522126996 Gráficos e tabelas elaborados pela autora REFERÊNCIAS