46
Macroeconomia 2
UNIOESTE
22
Macroeconomia 2
UNIOESTE
22
Macroeconomia 2
UNIOESTE
98
Macroeconomia 2
UNIOESTE
2
Macroeconomia 2
UMG
87
Macroeconomia 2
PUC
1
Macroeconomia 2
UNIGRANRIO
3
Macroeconomia 2
UFABC
12
Macroeconomia 2
MACKENZIE
1
Macroeconomia 2
UNIGRANRIO
Texto de pré-visualização
Métodos Quantitativos Docente Flávio Rocha Email flaviorochaunioestebr Análise de Regressão Logística Binaria 2 INTRODUÇÃO REGRESSÃO LOGÍSTICA BINÁRIA Diferentemente da tradicional técnica de regressão estimada por meio de métodos de mínimos quadrados em que a variável dependente apresentase de forma quantitativa e devem ser obedecidos alguns pressupostos as técnicas de regressão logística são utilizadas quando o fenômeno a ser estudado apresentase de forma qualitativa Portanto representado por uma ou mais variáveis dummy dependendo da quantidade de possibilidades de resposta categorias desta variável dependente Os modelos de regressão logística embora bastante úteis e de fácil aplicação ainda são pouco utilizados em muitas áreas do conhecimento humano Muitos pesquisadores ainda desconhecem as suas utilidades e sobretudo as condições para que seu uso seja correto 3 INTRODUÇÃO REGRESSÃO LOGÍSTICA BINÁRIA Imagine por exemplo que um pesquisador tenha interesse em avaliar a probabilidade de ocorrência de infarto em executivos do mercado financeiro com base em suas características físicas peso cintura abdominal em seus hábitos alimentares e em seus hábitos de saúde exercícios físicos tabagismo Um segundo pesquisador deseja avaliar a chance de consumidores que adquirem bens duráveis num determinado período tornaremse inadimplentes em função da renda do estado civil e da escolaridade de cada um deles Note que o infarto ou a inadimplência são as variáveis dependentes nos dois casos e seus eventos podem ou não ocorrer em função das variáveis explicativas inseridas nos respectivos modelos e portanto são variáveis qualitativas dicotômicas que representam cada um dos fenômenos em estudo Nosso intuito é o de estimar a probabilidade de ocorrência destes fenômenos e para tanto faremos uso da regressão logística binária 4 INTRODUÇÃO REGRESSÃO LOGÍSTICA BINÁRIA Imagine ainda que um terceiro pesquisador tenha o interesse em estudar a probabilidade de obtenção de crédito por parte de empresas de micro e pequeno porte em função de suas características financeiras e operacionais Sabese que cada empresa poderá receber crédito integral sem restrição crédito com restrição ou não receber crédito algum Neste caso a variável dependente que representa o fenômeno é também qualitativa porém oferece três possibilidades de resposta categorias e portanto para estimarmos as probabilidades de ocorrência das alternativas propostas deveremos fazer uso da regressão logística multinomial 5 INTRODUÇÃO REGRESSÃO LOGÍSTICA BINÁRIA Logo se um fenômeno em estudo se apresentar por meio de apenas e tão somente duas categorias será representado por apenas uma única variável dummy em que a primeira categoria será a de referência e indicará o não evento de interesse dummy O e a outra categoria indicará o evento de interesse dummy 1 e estaremos lidando com a técnica de regressão logística binária Por outro lado se o fenômeno em estudo apresentar mais de duas categorias como possibilidades de ocorrência precisaremos inicialmente definir a categoria de referência para a partir daí elaborar a técnica de regressão logística multinomial 6 INTRODUÇÃO REGRESSÃO LOGÍSTICA BINÁRIA Ao se ter uma variável qualitativa como fenômeno a ser estudado fica inviável a estimação do modelo por meio do método de mínimos quadrados ordinários estudado no capítulo anterior uma vez que esta variável dependente não apresenta média e variância e portanto não há como minimizar a somatória dos termos de erro ao quadrado sem que seja feita uma incoerente ponderação arbitrária As técnicas de regressão logística binária e multinomial são elaboradas com base na estimação por máxima verossimilhança a ser estudada daqui a pouco 7 O Modelo de Regressão Logística Binária REGRESSÃO LOGÍSTICA BINÁRIA A regressão logística binária tem como objetivo principal estudar a probabilidade de ocorrência de um evento definido por Y que se apresenta na forma qualitativa dicotômica Y 1 para descrever a ocorrência do evento de interesse e Y O para descrever a ocorrência do não evento com base no comportamento de variáveis explicativas Desta forma podemos definir um vetor de variáveis explicativas com respectivos parâmetros estimados da seguinte forma em que Z é conhecido por logito α representa a constante ß𝑗j 1 2 k são os parâmetros estimados de cada variável explicativa 𝑋𝑗 são as variáveis explicativas métricas ou dummies e o subscrito i representa cada observação da amostra i 1 2 n em que n é o tamanho da amostra 8 O Modelo de Regressão Logística Binária REGRESSÃO LOGÍSTICA BINÁRIA E importante ressaltar que Z não representa a variável dependente denominada por Y e o nosso objetivo neste momento é definir a expressão da probabilidade 𝒑𝒊 de ocorrência do evento de interesse para cada observação em função do logito 𝑍𝑖 ou seja em função dos parâmetros estimados para cada variável explicativa Para tanto devemos definir o conceito de chance de ocorrência de um evento também conhecida por odds da seguinte forma 9 O Modelo de Regressão Logística Binária REGRESSÃO LOGÍSTICA BINÁRIA Imagine que tenhamos o interesse em estudar o evento aprovação na disciplina de Cálculo Se por exemplo a probabilidade de um determinado aluno ser aprovado nesta disciplina for de 80 a sua chance de ser aprovado será de 4 para 1 0802 4 Se a probabilidade de outro aluno ser aprovado na mesma disciplina for de 25 dado que tem estudado muito menos que o primeiro aluno a sua chance de ser aprovado será de 1 para 3 025075 13 033 Apesar de estarmos acostumados cotidianamente a usar o termo chance como sinônimo de probabilidade seus conceitos são diferentes 10 O Modelo de Regressão Logística Binária REGRESSÃO LOGÍSTICA BINÁRIA A regressão logística binária define o logito Z como o logaritmo natural da chance de modo que de onde vem que Como o nosso intuito é definir uma expressão para a probabilidade de ocorrência do evento em estudo em função do logito podemos matematicamente isolar P Probabilidade de ocorrência do evento Probabilidade de ocorrência do não evento 11 O Modelo de Regressão Logística Binária REGRESSÃO LOGÍSTICA BINÁRIA Por meio deste gráfico podemos verificar que as probabilidades estimadas em função dos diversos valores assumidos por Z situamse entre Oe 1 o que foi garantido quando se impôs que o logito fosse igual ao logaritmo natural da chance 12 O Modelo de Regressão Logística Binária REGRESSÃO LOGÍSTICA BINÁRIA Assim dados os parâmetros estimados do modelo e os valores de cada uma das variáveis explicativas para uma dada observação i podemos calcular o valor de Z e por meio da curva logística apresentada na Figura 131 também conhecida por curva S ou sigmoide estimar a probabilidade de ocorrência do evento em estudo para esta determinada observação i Podemos definir a expressão geral da probabilidade estimada de ocorrência de um evento que se apresenta na forma dicotômica para uma observação i da seguinte forma O que a regressão logística binária estima portanto não são os valores previstos da variável dependente mas sim a probabilidade de ocorrência do evento em estudo para cada observação 13 O Modelo de Regressão Logística Binária REGRESSÃO LOGÍSTICA BINÁRIA Já exploramos consideravelmente os efeitos de determinadas variáveis explicativas sobre o tempo de deslocamento de um grupo de alunos até a escola por meio da técnica de regressão múltipla ESTIMAÇÃO DO MODELO LOGIT POR MÁXIMA VEROSSIMILHANÇA Tenha agora o interesse em investigar se estas mesmas variáveis explicativas influenciam a probabilidade de um aluno chegar atrasado à aula Ou seja o fenômeno em questão a ser estudado apresenta somente duas categorias chegar ou não atrasado e o evento de interesse referese a chegar atrasado Elaborouse uma pesquisa com 100 alunos da escola onde leciona questionando se cada um deles chegou ou não atrasado naquele dia 14 O Modelo de Regressão Logística Binária REGRESSÃO LOGÍSTICA BINÁRIA ESTIMAÇÃO DO MODELO LOGIT POR MÁXIMA VEROSSIMILHANÇA Elaborouse uma pesquisa com 100 alunos da escola onde leciona questionando se cada um deles chegou ou não atrasado naquele dia Perguntou também sobre a distância percorrida no trajeto em quilômetros o número de semáforos pelos quais cada um passou o período em que foi realizado o trajeto manhã ou tarde e como cada um se considera em termos de perfil ao volante calmo moderado ou agressivo 15 O Modelo de Regressão Logística Binária REGRESSÃO LOGÍSTICA BINÁRIA Para a variável dependente como o evento de interesse referese a chegar atrasado esta categoria apresentará valores iguais a 1 ficando a categoria não chegar atrasado com valores iguais a O 16 O Modelo de Regressão Logística Binária REGRESSÃO LOGÍSTICA BINÁRIA 17 O Modelo de Regressão Logística Binária REGRESSÃO LOGÍSTICA BINÁRIA Desta forma o logito cujos parâmetros queremos estimar é definido da seguinte maneira e a probabilidade estimada de que um determinado estudante chegue atrasado pode ser escrita da seguinte forma ESTIMAÇÃO DO MODELO LOGIT POR MÁXIMA VEROSSIMILHANÇA 18 O Modelo de Regressão Logística Binária REGRESSÃO LOGÍSTICA BINÁRIA Como não faz sentido definirmos o termo de erro para cada observação dado que a variável dependente apresentase na forma dicotômica não há como estimarmos os parâmetros da equação de probabilidade por meio da minimização da somatória dos quadrados dos resíduos como fizemos quando da elaboração das técnicas tradicionais de regressão Neste caso portanto faremos uso da função de verossimilhança a partir da qual será elaborada a estimação por máxima verossimilhança Se preocupar apenas com o pressuposto da ausência de multicolinearidade das variáveis explicativas quando da estimação de modelos de regressão logística Na regressão logística binária a variável dependente segue uma distribuição de Bernoulli ou seja o fato de determinada observação i ter incidido ou não no evento de interesse pode ser considerado como um ensaio de Bernoulli em que a probabilidade de ocorrência do evento é P e a probabilidade de ocorrência do não evento é 1 p ESTIMAÇÃO DO MODELO LOGIT POR MÁXIMA VEROSSIMILHANÇA 19 O Modelo de Regressão Logística Binária REGRESSÃO LOGÍSTICA BINÁRIA Logaritmo da Função de verossimilhança likelihood function ESTIMAÇÃO DO MODELO LOGIT POR MÁXIMA VEROSSIMILHANÇA 20 O Modelo de Regressão Logística Binária REGRESSÃO LOGÍSTICA BINÁRIA 21 O Modelo de Regressão Logística Binária REGRESSÃO LOGÍSTICA BINÁRIA A resolução deste problema gerou as seguintes estimativas dos parâmetros e assim o logito Z pode ser escrito da seguinte forma 𝑎 30202 ß1 0220 ß2 2767 ß3 3653 ß4 1346 ß5 2914 E portanto a expressão da probabilidade estimada de que um estudante i chegue atrasado pode ser escrita da seguinte forma 22 O Modelo de Regressão Logística Binária REGRESSÃO LOGÍSTICA BINÁRIA Qual é a probabilidade média estimada de se chegar atrasado à escola ao se deslocar 17 quilômetros e passar por 10 semáforos tendo feito o trajeto de manhã e sendo considerado agressivo ao volante Em média em quanto se altera a chance de se chegar atrasado à escola ao se adotar um percurso 1 quilômetro mais longo mantidas as demais condições constantes Um aluno considerado agressivo apresenta em média uma chance maior de chegar atrasado do que outro considerado calmo Se sim em quanto é incrementada esta chance mantidas as demais condições constantes Antes de respondermos a estas importantes questões precisamos verificar se todos os parâmetros estimados são estatisticamente significantes a um determinado nível de confiança 23 O Modelo de Regressão Logística Binária REGRESSÃO LOGÍSTICA BINÁRIA Se elaborarmos um gráfico linear da nossa variável dependente atrasado em função da variável referente ao número de semáforos sem perceberemos que as estimativas do modelo não são capazes de se ajustar de maneira satisfatória ao comportamento da variável dependente dado que esta é uma dummy SIGNIFICÂMCIA ESTATÍSTICA DO MODELO LOGIT POR MÁXIMA VEROSSIMILHANÇA 24 O Modelo de Regressão Logística Binária REGRESSÃO LOGÍSTICA BINÁRIA Por outro lado se o modelo de regressão logística binária for elaborado e forem plotadas as estimativas das probabilidades de se chegar atrasado para cada observação da nossa amostra em função especificamente do número de semáforos pelos quais cada estudante passa perceberemos que o ajuste é bem mais adequado ao comportamento da variável dependente curva S ou sigmoide com valores estimados limitados entre O e 1 SIGNIFICÂMCIA ESTATÍSTICA DO MODELO LOGIT POR MÁXIMA VEROSSIMILHANÇA 25 O Modelo de Regressão Logística Binária REGRESSÃO LOGÍSTICA BINÁRIA Portanto como a variável dependente é qualitativa não faz sentido discutirmos o percentual de sua variância que é explicado pelas variáveis preditoras ou seja em modelos de regressão logística não há um coeficiente de ajuste R² como nos modelos tradicionais de regressão estimados pelo método de mínimos quadrados ordinários SIGNIFICÂMCIA ESTATÍSTICA DO MODELO LOGIT POR MÁXIMA VEROSSIMILHANÇA Muitos pesquisadores apresentam em seus trabalhos um coeficiente conhecido por pseudo R² de McFadden SEU USO restringese a comparar dois ou mais modelos distintos em que o critério para escolha do modelo é o maior pseudo R² de McFadden Não se analisa igual ao R² 26 O Modelo de Regressão Logística Binária REGRESSÃO LOGÍSTICA BINÁRIA O teste χ² propicia condições à verificação da significância do modelo uma vez que suas hipóteses nula e alternativa para um modelo geral de regressão logística são respectivamente SIGNIFICÂMCIA ESTATÍSTICA DO MODELO LOGIT POR MÁXIMA VEROSSIMILHANÇA Similar ao Teste F O teste χ² é mais adequado para modelos estimados pelo método de máxima verossimilhança como os modelos de regressão logística O teste χ² propicia ao pesquisador uma verificação inicial sobre a existência do modelo que está sendo proposto uma vez que se todos os parâmetros estimados ß𝑗 j 1 2 k forem estatisticamente iguais a O o comportamento de alteração de cada uma das variáveis X não influenciará em absolutamente nada a probabilidade de ocorrência do evento em estudo 27 O Modelo de Regressão Logística Binária REGRESSÃO LOGÍSTICA BINÁRIA devemos verificar se o nível de significância do χ²𝑐𝑎𝑙 é menor do que 005 5 a fim de darmos continuidade à análise de regressão Assim SIGNIFICÂMCIA ESTATÍSTICA DO MODELO LOGIT POR MÁXIMA VEROSSIMILHANÇA Análogo ao teste F o teste X2 avalia a significância conjunta das variáveis explicativas não definindo qual ou quais destas variáveis consideradas no modelo são estatisticamente significantes para influenciar a probabilidade de ocorrência do evento 28 O Modelo de Regressão Logística Binária REGRESSÃO LOGÍSTICA BINÁRIA Desta forma é preciso que o pesquisador avalie se cada um dos parâmetros do modelo de regressão logística binária é estatisticamente significante e neste sentido a estatística z de Wald será importante para fornecer a significância estatística de cada parâmetro a ser considerado no modelo SIGNIFICÂMCIA ESTATÍSTICA DO MODELO LOGIT POR MÁXIMA VEROSSIMILHANÇA A nomenclatura Ɀ referese ao fato de que a distribuição desta estatística é a distribuição normal padrão As hipóteses do teste z de Wald para o α e para cada ß𝑗 j 1 2 k são respectivamente Após a obtenção das estatísticas z de Wald o pesquisador pode utilizar a tabela de distribuição da curva normal padrão para obtenção dos valores críticos a um dado nível de significância e verificar se tais testes rejeitam ou não a hipótese nula 29 O Modelo de Regressão Logística Binária REGRESSÃO LOGÍSTICA BINÁRIA Como no caso do teste X2 os pacotes estatísticos também oferecem os valores dos níveis de significância dos testes z de Wald o que facilita a decisão já que com 95 de nível de confiança 5 de nível de significância teremos SIGNIFICÂMCIA ESTATÍSTICA DO MODELO LOGIT POR MÁXIMA VEROSSIMILHANÇA A não rejeição da hipótese nula para o parâmetro ß𝑗 ao nível de significância de 5 indica que a correspondente variável peifil2 não é estatisticamente significante para aumentar ou diminuir a probabilidade de se chegar atrasado à escola na presença das demais variáveis explicativas e portanto poderá ser excluída do modelo final 30 O Modelo de Regressão Logística Binária REGRESSÃO LOGÍSTICA BINÁRIA RESOLVENDO EXEMPLO NO GRETL Desta forma podemos escrever o logito Z como segue com a seguinte expressão final de probabilidade estimada de que um estudante i chegue atrasado à escola 31 O Modelo de Regressão Logística Binária REGRESSÃO LOGÍSTICA BINÁRIA AS PERGUNTAS DE PREVISÃO Slide 24 Qual é a probabilidade média estimada de se chegar atrasado à escola ao se deslocar 17 quilômetros e passar por 10 semáforos tendo feito o trajeto de manhã e sendo considerado agressivo ao volante Fazendo uso da última expressão de probabilidade e substituindo os valores fornecidos nesta equação teremos Logo a probabilidade média estimada de se chegar atrasado à escola é nas condições informadas igual a 603 32 O Modelo de Regressão Logística Binária REGRESSÃO LOGÍSTICA BINÁRIA AS PERGUNTAS DE PREVISÃO Slide 24 Em média em quanto se altera a chance de se chegar atrasado à escola ao se adotar um percurso 1 quilômetro mais longo mantidas as demais condições constantes Para respondermos a esta questão devemos recorrer à expressão de modo que mantidas as demais condições constantes a chance de se chegar atrasado à escola ao se adotar um trajeto 1 quilômetro mais longo é Logo a chance é multiplicada por um fator de 1226 ou seja mantidas as demais condições constantes a chance de se chegar atrasado à escola ao se adotar um trajeto 1 quilômetro mais longo é em média 226 maior 33 O Modelo de Regressão Logística Binária REGRESSÃO LOGÍSTICA BINÁRIA AS PERGUNTAS DE PREVISÃO Slide 24 Um aluno considerado agressivo apresenta em média uma chance maior de chegar atrasado do que outro considerado calmo Se sim em quanto é incrementada esta chance mantidas as demais condições constantes Como ß5 é positivo podemos afirmar que a probabilidade de um aluno considerado agressivo chegar atrasado é maior do que um aluno considerado calmo fato que também é comprovado quando se analisa a chance dado que se ß5 O logo 𝑒ß5 1 ou seja a chance será maior de chegar atrasado quando se é agressivo ao volante em relação a ser calmo Isso comprova mais uma vez que a agressividade no volante não leva a nada 34 O Modelo de Regressão Logística Binária REGRESSÃO LOGÍSTICA BINÁRIA AS PERGUNTAS DE PREVISÃO Slide 24 Um aluno considerado agressivo apresenta em média uma chance maior de chegar atrasado do que outro considerado calmo Se sim em quanto é incrementada esta chance mantidas as demais condições constantes Mantidas as demais condições constantes a chance de chegar atrasado quando se é agressivo ao volante em relação a ser calmo é dada por Logo a chance é multiplicada por um fator de 11693 ou seja mantidas as demais condições constantes a chance de se chegar atrasado à escola quando se é agressivo ao volante em relação a ser calmo é em média 10693 maior Vale comentar que não há diferenças na probabilidade de se chegar atrasado à escola quando se é considerado moderado ou calmo dado que o parâmetro ß4 referente à categoria moderado apresentouse estatisticamente igual a zero ao nível de significância de 5 35 O Modelo de Regressão Logística Binária REGRESSÃO LOGÍSTICA BINÁRIA SIGNIFICÂMCIA ESTATÍSTICA DO MODELO LOGIT POR MÁXIMA VEROSSIMILHANÇA 36 O Modelo de Regressão Logística Binária REGRESSÃO LOGÍSTICA BINÁRIA O cutoff que nada mais é do que um ponto de corte é definido para que sejam classificadas as observações em função das suas probabilidades calculadas e desta forma é utilizado quando há o intuito de se elaborarem previsões de ocorrência do evento para observações não presentes na amostra com base nas probabilidades das observações presentes na amostra CUTOFF Assim se determinada observação não presente na amostra apresentar uma probabilidade de incidir no evento maior do que o cutoff definido esperase que haja a incidência do evento e portanto será classificada como evento Por outro lado se a sua probabilidade for menor do que o cutoff definido esperase que haja a incidência do não evento e portanto será classificada como não evento 37 O Modelo de Regressão Logística Binária REGRESSÃO LOGÍSTICA BINÁRIA O cutoff serve para que o pesquisador avalie a real incidência do evento para cada observação e a compare com a expectativa de que cada observação incida de fato no evento CUTOFF Com isto feito será possível avaliar a taxa de acerto do modelo com base nas próprias observações presentes na amostra e por inferência assumir que tal taxa de acerto se mantenha quando houver o intuito de avaliar a incidência do evento para outras observações não presentes na amostra previsão 38 O Modelo de Regressão Logística Binária REGRESSÃO LOGÍSTICA BINÁRIA Para a nossa amostra de 100 observações podemos elaborar a Tabela 1311 que traz a classificação completa para um cutoff de 05 CUTOFF Podemos verificar que 86 observações foram classificadas corretamente para um cutoff de 05 sendo que 56 delas foram evento e de fato foram classificadas como tal e outras 30 não foram evento e não foram classificadas como evento com este cutoff Entretanto 14 observações foram classificadas incorretamente sendo que 3 foram evento mas não foram classificadas como tal e 11 não foram evento mas foram classificadas como tendo sido 39 O Modelo de Regressão Logística Binária REGRESSÃO LOGÍSTICA BINÁRIA Corresponde ao percentual de acerto da classificação para um determinado cutoff Para o nosso exemplo a eficiência global do modelo é calculada da seguinte forma Eficiência Global do Modelo Logo para um cutoff de 05 8600 das observações são classificadas corretamente Conforme mencionado na seção 1322 a eficiência global do modelo para um determinado cuteff é bem mais adequada para se avaliar o desempenho da modelagem do que o pseudo R² de McFadden uma vez que a variável dependente apresentase na forma qualitativa dicotômica Entretanto 14 observações foram classificadas incorretamente sendo que 3 foram evento mas não foram classificadas como tal e 11 não foram evento mas foram classificadas como tendo sido 40 O Modelo de Regressão Logística Binária REGRESSÃO LOGÍSTICA BINÁRIA Diz respeito ao percentual de acerto para um determinado cuteff considerandose apenas as observações que de fato são evento Logo no nosso exemplo o denominador para o cálculo da sensitividade é 59 e sua expressão é dada por Sensitividade Assim para um cutoff de 05 9492 das observações que são evento são classificadas corretamente 41 O Modelo de Regressão Logística Binária REGRESSÃO LOGÍSTICA BINÁRIA Referese ao percentual de acerto para um dado cutoff considerandose apenas as observações que não são evento No nosso exemplo a sua expressão é dada por Especificidade Desta forma 7317 das observações que não são evento são classificadas corretamente ou seja para um cutoff de 05 apresentam probabilidades de ocorrência do evento menores do que 50 Obviamente a eficiência global do modelo a sensitividade e a especificidade mudam quando é alterado o valor do cutoff 42 O Modelo de Regressão Logística Binária REGRESSÃO LOGÍSTICA BINÁRIA Considerandose um cutoff de 03 Para este caso teremos o seguinte critério de classificação MUDANDO O CUTOFF Em comparação aos valores obtidos para um cutoff de 05 podemos perceber neste caso cutif de 03 que enquanto a sensitividade apresenta um pequeno aumento a especificidade é reduzida de forma um pouco mais acentuada o que resulta no âmbito geral numa redução percentual da eficiência global do modelo 43 O Modelo de Regressão Logística Binária REGRESSÃO LOGÍSTICA BINÁRIA Considerandose um cutoff de 07 MUDANDO O CUTOFF Neste caso verificamos outro comportamento ou seja enquanto a sensitividade apresenta uma redução considerável a especificidade aumenta Podemos inclusive perceber que a taxa de acerto para aqueles que são evento passa a ser menor do que a taxa de acerto para os que não são evento Entretanto a eficiência geral do modelo com cutoff de 07 também apresenta uma redução percentual em relação ao modelo com cutoff de 05 44 O Modelo de Regressão Logística Binária REGRESSÃO LOGÍSTICA BINÁRIA Esta análise de sensibilidade pode ser feita com qualquer valor de cutifentre Oe 1 o que permite que o pesquisador possa tomar uma decisão no sentido de definir um cutif que atenda aos seus objetivos de previsão MUDANDO O CUTOFF Se por exemplo o objetivo for o de maximizar a eficiência global do modelo pode ser utilizado um determinado cutoff que como sabemos poderá gerar valores de sensitividade ou de especificidade não maximizados Se por outro lado o objetivo for o de maximizar a sensitividade ou seja a taxa de acerto para aqueles que são evento poderá ser definido outro cutoff que não necessariamente aquele que maximizará a eficiência global do modelo 45 O Modelo de Regressão Logística Binária REGRESSÃO LOGÍSTICA BINÁRIA Gretl REFERÊNCIAS BIBLIOGRÁFICAS INTRODUÇÃO À ECONOMETRIA UMA ABORDAGEM MODERNA TRADUÇÃO DA 4ª EDIÇÃO NORTEAMERICANA JEFFREY M WOOLDRIDGE ANÁLISE MULTIVARIADA DE DADOS 6ª EDIÇÃO Hair Black Babin Anderson Tatham ANÁLISE DE DADOS MODELOS DE REGRESSÃO Com EXCEL STATA e SPSS LUIZ PAULO FÁVERO
46
Macroeconomia 2
UNIOESTE
22
Macroeconomia 2
UNIOESTE
22
Macroeconomia 2
UNIOESTE
98
Macroeconomia 2
UNIOESTE
2
Macroeconomia 2
UMG
87
Macroeconomia 2
PUC
1
Macroeconomia 2
UNIGRANRIO
3
Macroeconomia 2
UFABC
12
Macroeconomia 2
MACKENZIE
1
Macroeconomia 2
UNIGRANRIO
Texto de pré-visualização
Métodos Quantitativos Docente Flávio Rocha Email flaviorochaunioestebr Análise de Regressão Logística Binaria 2 INTRODUÇÃO REGRESSÃO LOGÍSTICA BINÁRIA Diferentemente da tradicional técnica de regressão estimada por meio de métodos de mínimos quadrados em que a variável dependente apresentase de forma quantitativa e devem ser obedecidos alguns pressupostos as técnicas de regressão logística são utilizadas quando o fenômeno a ser estudado apresentase de forma qualitativa Portanto representado por uma ou mais variáveis dummy dependendo da quantidade de possibilidades de resposta categorias desta variável dependente Os modelos de regressão logística embora bastante úteis e de fácil aplicação ainda são pouco utilizados em muitas áreas do conhecimento humano Muitos pesquisadores ainda desconhecem as suas utilidades e sobretudo as condições para que seu uso seja correto 3 INTRODUÇÃO REGRESSÃO LOGÍSTICA BINÁRIA Imagine por exemplo que um pesquisador tenha interesse em avaliar a probabilidade de ocorrência de infarto em executivos do mercado financeiro com base em suas características físicas peso cintura abdominal em seus hábitos alimentares e em seus hábitos de saúde exercícios físicos tabagismo Um segundo pesquisador deseja avaliar a chance de consumidores que adquirem bens duráveis num determinado período tornaremse inadimplentes em função da renda do estado civil e da escolaridade de cada um deles Note que o infarto ou a inadimplência são as variáveis dependentes nos dois casos e seus eventos podem ou não ocorrer em função das variáveis explicativas inseridas nos respectivos modelos e portanto são variáveis qualitativas dicotômicas que representam cada um dos fenômenos em estudo Nosso intuito é o de estimar a probabilidade de ocorrência destes fenômenos e para tanto faremos uso da regressão logística binária 4 INTRODUÇÃO REGRESSÃO LOGÍSTICA BINÁRIA Imagine ainda que um terceiro pesquisador tenha o interesse em estudar a probabilidade de obtenção de crédito por parte de empresas de micro e pequeno porte em função de suas características financeiras e operacionais Sabese que cada empresa poderá receber crédito integral sem restrição crédito com restrição ou não receber crédito algum Neste caso a variável dependente que representa o fenômeno é também qualitativa porém oferece três possibilidades de resposta categorias e portanto para estimarmos as probabilidades de ocorrência das alternativas propostas deveremos fazer uso da regressão logística multinomial 5 INTRODUÇÃO REGRESSÃO LOGÍSTICA BINÁRIA Logo se um fenômeno em estudo se apresentar por meio de apenas e tão somente duas categorias será representado por apenas uma única variável dummy em que a primeira categoria será a de referência e indicará o não evento de interesse dummy O e a outra categoria indicará o evento de interesse dummy 1 e estaremos lidando com a técnica de regressão logística binária Por outro lado se o fenômeno em estudo apresentar mais de duas categorias como possibilidades de ocorrência precisaremos inicialmente definir a categoria de referência para a partir daí elaborar a técnica de regressão logística multinomial 6 INTRODUÇÃO REGRESSÃO LOGÍSTICA BINÁRIA Ao se ter uma variável qualitativa como fenômeno a ser estudado fica inviável a estimação do modelo por meio do método de mínimos quadrados ordinários estudado no capítulo anterior uma vez que esta variável dependente não apresenta média e variância e portanto não há como minimizar a somatória dos termos de erro ao quadrado sem que seja feita uma incoerente ponderação arbitrária As técnicas de regressão logística binária e multinomial são elaboradas com base na estimação por máxima verossimilhança a ser estudada daqui a pouco 7 O Modelo de Regressão Logística Binária REGRESSÃO LOGÍSTICA BINÁRIA A regressão logística binária tem como objetivo principal estudar a probabilidade de ocorrência de um evento definido por Y que se apresenta na forma qualitativa dicotômica Y 1 para descrever a ocorrência do evento de interesse e Y O para descrever a ocorrência do não evento com base no comportamento de variáveis explicativas Desta forma podemos definir um vetor de variáveis explicativas com respectivos parâmetros estimados da seguinte forma em que Z é conhecido por logito α representa a constante ß𝑗j 1 2 k são os parâmetros estimados de cada variável explicativa 𝑋𝑗 são as variáveis explicativas métricas ou dummies e o subscrito i representa cada observação da amostra i 1 2 n em que n é o tamanho da amostra 8 O Modelo de Regressão Logística Binária REGRESSÃO LOGÍSTICA BINÁRIA E importante ressaltar que Z não representa a variável dependente denominada por Y e o nosso objetivo neste momento é definir a expressão da probabilidade 𝒑𝒊 de ocorrência do evento de interesse para cada observação em função do logito 𝑍𝑖 ou seja em função dos parâmetros estimados para cada variável explicativa Para tanto devemos definir o conceito de chance de ocorrência de um evento também conhecida por odds da seguinte forma 9 O Modelo de Regressão Logística Binária REGRESSÃO LOGÍSTICA BINÁRIA Imagine que tenhamos o interesse em estudar o evento aprovação na disciplina de Cálculo Se por exemplo a probabilidade de um determinado aluno ser aprovado nesta disciplina for de 80 a sua chance de ser aprovado será de 4 para 1 0802 4 Se a probabilidade de outro aluno ser aprovado na mesma disciplina for de 25 dado que tem estudado muito menos que o primeiro aluno a sua chance de ser aprovado será de 1 para 3 025075 13 033 Apesar de estarmos acostumados cotidianamente a usar o termo chance como sinônimo de probabilidade seus conceitos são diferentes 10 O Modelo de Regressão Logística Binária REGRESSÃO LOGÍSTICA BINÁRIA A regressão logística binária define o logito Z como o logaritmo natural da chance de modo que de onde vem que Como o nosso intuito é definir uma expressão para a probabilidade de ocorrência do evento em estudo em função do logito podemos matematicamente isolar P Probabilidade de ocorrência do evento Probabilidade de ocorrência do não evento 11 O Modelo de Regressão Logística Binária REGRESSÃO LOGÍSTICA BINÁRIA Por meio deste gráfico podemos verificar que as probabilidades estimadas em função dos diversos valores assumidos por Z situamse entre Oe 1 o que foi garantido quando se impôs que o logito fosse igual ao logaritmo natural da chance 12 O Modelo de Regressão Logística Binária REGRESSÃO LOGÍSTICA BINÁRIA Assim dados os parâmetros estimados do modelo e os valores de cada uma das variáveis explicativas para uma dada observação i podemos calcular o valor de Z e por meio da curva logística apresentada na Figura 131 também conhecida por curva S ou sigmoide estimar a probabilidade de ocorrência do evento em estudo para esta determinada observação i Podemos definir a expressão geral da probabilidade estimada de ocorrência de um evento que se apresenta na forma dicotômica para uma observação i da seguinte forma O que a regressão logística binária estima portanto não são os valores previstos da variável dependente mas sim a probabilidade de ocorrência do evento em estudo para cada observação 13 O Modelo de Regressão Logística Binária REGRESSÃO LOGÍSTICA BINÁRIA Já exploramos consideravelmente os efeitos de determinadas variáveis explicativas sobre o tempo de deslocamento de um grupo de alunos até a escola por meio da técnica de regressão múltipla ESTIMAÇÃO DO MODELO LOGIT POR MÁXIMA VEROSSIMILHANÇA Tenha agora o interesse em investigar se estas mesmas variáveis explicativas influenciam a probabilidade de um aluno chegar atrasado à aula Ou seja o fenômeno em questão a ser estudado apresenta somente duas categorias chegar ou não atrasado e o evento de interesse referese a chegar atrasado Elaborouse uma pesquisa com 100 alunos da escola onde leciona questionando se cada um deles chegou ou não atrasado naquele dia 14 O Modelo de Regressão Logística Binária REGRESSÃO LOGÍSTICA BINÁRIA ESTIMAÇÃO DO MODELO LOGIT POR MÁXIMA VEROSSIMILHANÇA Elaborouse uma pesquisa com 100 alunos da escola onde leciona questionando se cada um deles chegou ou não atrasado naquele dia Perguntou também sobre a distância percorrida no trajeto em quilômetros o número de semáforos pelos quais cada um passou o período em que foi realizado o trajeto manhã ou tarde e como cada um se considera em termos de perfil ao volante calmo moderado ou agressivo 15 O Modelo de Regressão Logística Binária REGRESSÃO LOGÍSTICA BINÁRIA Para a variável dependente como o evento de interesse referese a chegar atrasado esta categoria apresentará valores iguais a 1 ficando a categoria não chegar atrasado com valores iguais a O 16 O Modelo de Regressão Logística Binária REGRESSÃO LOGÍSTICA BINÁRIA 17 O Modelo de Regressão Logística Binária REGRESSÃO LOGÍSTICA BINÁRIA Desta forma o logito cujos parâmetros queremos estimar é definido da seguinte maneira e a probabilidade estimada de que um determinado estudante chegue atrasado pode ser escrita da seguinte forma ESTIMAÇÃO DO MODELO LOGIT POR MÁXIMA VEROSSIMILHANÇA 18 O Modelo de Regressão Logística Binária REGRESSÃO LOGÍSTICA BINÁRIA Como não faz sentido definirmos o termo de erro para cada observação dado que a variável dependente apresentase na forma dicotômica não há como estimarmos os parâmetros da equação de probabilidade por meio da minimização da somatória dos quadrados dos resíduos como fizemos quando da elaboração das técnicas tradicionais de regressão Neste caso portanto faremos uso da função de verossimilhança a partir da qual será elaborada a estimação por máxima verossimilhança Se preocupar apenas com o pressuposto da ausência de multicolinearidade das variáveis explicativas quando da estimação de modelos de regressão logística Na regressão logística binária a variável dependente segue uma distribuição de Bernoulli ou seja o fato de determinada observação i ter incidido ou não no evento de interesse pode ser considerado como um ensaio de Bernoulli em que a probabilidade de ocorrência do evento é P e a probabilidade de ocorrência do não evento é 1 p ESTIMAÇÃO DO MODELO LOGIT POR MÁXIMA VEROSSIMILHANÇA 19 O Modelo de Regressão Logística Binária REGRESSÃO LOGÍSTICA BINÁRIA Logaritmo da Função de verossimilhança likelihood function ESTIMAÇÃO DO MODELO LOGIT POR MÁXIMA VEROSSIMILHANÇA 20 O Modelo de Regressão Logística Binária REGRESSÃO LOGÍSTICA BINÁRIA 21 O Modelo de Regressão Logística Binária REGRESSÃO LOGÍSTICA BINÁRIA A resolução deste problema gerou as seguintes estimativas dos parâmetros e assim o logito Z pode ser escrito da seguinte forma 𝑎 30202 ß1 0220 ß2 2767 ß3 3653 ß4 1346 ß5 2914 E portanto a expressão da probabilidade estimada de que um estudante i chegue atrasado pode ser escrita da seguinte forma 22 O Modelo de Regressão Logística Binária REGRESSÃO LOGÍSTICA BINÁRIA Qual é a probabilidade média estimada de se chegar atrasado à escola ao se deslocar 17 quilômetros e passar por 10 semáforos tendo feito o trajeto de manhã e sendo considerado agressivo ao volante Em média em quanto se altera a chance de se chegar atrasado à escola ao se adotar um percurso 1 quilômetro mais longo mantidas as demais condições constantes Um aluno considerado agressivo apresenta em média uma chance maior de chegar atrasado do que outro considerado calmo Se sim em quanto é incrementada esta chance mantidas as demais condições constantes Antes de respondermos a estas importantes questões precisamos verificar se todos os parâmetros estimados são estatisticamente significantes a um determinado nível de confiança 23 O Modelo de Regressão Logística Binária REGRESSÃO LOGÍSTICA BINÁRIA Se elaborarmos um gráfico linear da nossa variável dependente atrasado em função da variável referente ao número de semáforos sem perceberemos que as estimativas do modelo não são capazes de se ajustar de maneira satisfatória ao comportamento da variável dependente dado que esta é uma dummy SIGNIFICÂMCIA ESTATÍSTICA DO MODELO LOGIT POR MÁXIMA VEROSSIMILHANÇA 24 O Modelo de Regressão Logística Binária REGRESSÃO LOGÍSTICA BINÁRIA Por outro lado se o modelo de regressão logística binária for elaborado e forem plotadas as estimativas das probabilidades de se chegar atrasado para cada observação da nossa amostra em função especificamente do número de semáforos pelos quais cada estudante passa perceberemos que o ajuste é bem mais adequado ao comportamento da variável dependente curva S ou sigmoide com valores estimados limitados entre O e 1 SIGNIFICÂMCIA ESTATÍSTICA DO MODELO LOGIT POR MÁXIMA VEROSSIMILHANÇA 25 O Modelo de Regressão Logística Binária REGRESSÃO LOGÍSTICA BINÁRIA Portanto como a variável dependente é qualitativa não faz sentido discutirmos o percentual de sua variância que é explicado pelas variáveis preditoras ou seja em modelos de regressão logística não há um coeficiente de ajuste R² como nos modelos tradicionais de regressão estimados pelo método de mínimos quadrados ordinários SIGNIFICÂMCIA ESTATÍSTICA DO MODELO LOGIT POR MÁXIMA VEROSSIMILHANÇA Muitos pesquisadores apresentam em seus trabalhos um coeficiente conhecido por pseudo R² de McFadden SEU USO restringese a comparar dois ou mais modelos distintos em que o critério para escolha do modelo é o maior pseudo R² de McFadden Não se analisa igual ao R² 26 O Modelo de Regressão Logística Binária REGRESSÃO LOGÍSTICA BINÁRIA O teste χ² propicia condições à verificação da significância do modelo uma vez que suas hipóteses nula e alternativa para um modelo geral de regressão logística são respectivamente SIGNIFICÂMCIA ESTATÍSTICA DO MODELO LOGIT POR MÁXIMA VEROSSIMILHANÇA Similar ao Teste F O teste χ² é mais adequado para modelos estimados pelo método de máxima verossimilhança como os modelos de regressão logística O teste χ² propicia ao pesquisador uma verificação inicial sobre a existência do modelo que está sendo proposto uma vez que se todos os parâmetros estimados ß𝑗 j 1 2 k forem estatisticamente iguais a O o comportamento de alteração de cada uma das variáveis X não influenciará em absolutamente nada a probabilidade de ocorrência do evento em estudo 27 O Modelo de Regressão Logística Binária REGRESSÃO LOGÍSTICA BINÁRIA devemos verificar se o nível de significância do χ²𝑐𝑎𝑙 é menor do que 005 5 a fim de darmos continuidade à análise de regressão Assim SIGNIFICÂMCIA ESTATÍSTICA DO MODELO LOGIT POR MÁXIMA VEROSSIMILHANÇA Análogo ao teste F o teste X2 avalia a significância conjunta das variáveis explicativas não definindo qual ou quais destas variáveis consideradas no modelo são estatisticamente significantes para influenciar a probabilidade de ocorrência do evento 28 O Modelo de Regressão Logística Binária REGRESSÃO LOGÍSTICA BINÁRIA Desta forma é preciso que o pesquisador avalie se cada um dos parâmetros do modelo de regressão logística binária é estatisticamente significante e neste sentido a estatística z de Wald será importante para fornecer a significância estatística de cada parâmetro a ser considerado no modelo SIGNIFICÂMCIA ESTATÍSTICA DO MODELO LOGIT POR MÁXIMA VEROSSIMILHANÇA A nomenclatura Ɀ referese ao fato de que a distribuição desta estatística é a distribuição normal padrão As hipóteses do teste z de Wald para o α e para cada ß𝑗 j 1 2 k são respectivamente Após a obtenção das estatísticas z de Wald o pesquisador pode utilizar a tabela de distribuição da curva normal padrão para obtenção dos valores críticos a um dado nível de significância e verificar se tais testes rejeitam ou não a hipótese nula 29 O Modelo de Regressão Logística Binária REGRESSÃO LOGÍSTICA BINÁRIA Como no caso do teste X2 os pacotes estatísticos também oferecem os valores dos níveis de significância dos testes z de Wald o que facilita a decisão já que com 95 de nível de confiança 5 de nível de significância teremos SIGNIFICÂMCIA ESTATÍSTICA DO MODELO LOGIT POR MÁXIMA VEROSSIMILHANÇA A não rejeição da hipótese nula para o parâmetro ß𝑗 ao nível de significância de 5 indica que a correspondente variável peifil2 não é estatisticamente significante para aumentar ou diminuir a probabilidade de se chegar atrasado à escola na presença das demais variáveis explicativas e portanto poderá ser excluída do modelo final 30 O Modelo de Regressão Logística Binária REGRESSÃO LOGÍSTICA BINÁRIA RESOLVENDO EXEMPLO NO GRETL Desta forma podemos escrever o logito Z como segue com a seguinte expressão final de probabilidade estimada de que um estudante i chegue atrasado à escola 31 O Modelo de Regressão Logística Binária REGRESSÃO LOGÍSTICA BINÁRIA AS PERGUNTAS DE PREVISÃO Slide 24 Qual é a probabilidade média estimada de se chegar atrasado à escola ao se deslocar 17 quilômetros e passar por 10 semáforos tendo feito o trajeto de manhã e sendo considerado agressivo ao volante Fazendo uso da última expressão de probabilidade e substituindo os valores fornecidos nesta equação teremos Logo a probabilidade média estimada de se chegar atrasado à escola é nas condições informadas igual a 603 32 O Modelo de Regressão Logística Binária REGRESSÃO LOGÍSTICA BINÁRIA AS PERGUNTAS DE PREVISÃO Slide 24 Em média em quanto se altera a chance de se chegar atrasado à escola ao se adotar um percurso 1 quilômetro mais longo mantidas as demais condições constantes Para respondermos a esta questão devemos recorrer à expressão de modo que mantidas as demais condições constantes a chance de se chegar atrasado à escola ao se adotar um trajeto 1 quilômetro mais longo é Logo a chance é multiplicada por um fator de 1226 ou seja mantidas as demais condições constantes a chance de se chegar atrasado à escola ao se adotar um trajeto 1 quilômetro mais longo é em média 226 maior 33 O Modelo de Regressão Logística Binária REGRESSÃO LOGÍSTICA BINÁRIA AS PERGUNTAS DE PREVISÃO Slide 24 Um aluno considerado agressivo apresenta em média uma chance maior de chegar atrasado do que outro considerado calmo Se sim em quanto é incrementada esta chance mantidas as demais condições constantes Como ß5 é positivo podemos afirmar que a probabilidade de um aluno considerado agressivo chegar atrasado é maior do que um aluno considerado calmo fato que também é comprovado quando se analisa a chance dado que se ß5 O logo 𝑒ß5 1 ou seja a chance será maior de chegar atrasado quando se é agressivo ao volante em relação a ser calmo Isso comprova mais uma vez que a agressividade no volante não leva a nada 34 O Modelo de Regressão Logística Binária REGRESSÃO LOGÍSTICA BINÁRIA AS PERGUNTAS DE PREVISÃO Slide 24 Um aluno considerado agressivo apresenta em média uma chance maior de chegar atrasado do que outro considerado calmo Se sim em quanto é incrementada esta chance mantidas as demais condições constantes Mantidas as demais condições constantes a chance de chegar atrasado quando se é agressivo ao volante em relação a ser calmo é dada por Logo a chance é multiplicada por um fator de 11693 ou seja mantidas as demais condições constantes a chance de se chegar atrasado à escola quando se é agressivo ao volante em relação a ser calmo é em média 10693 maior Vale comentar que não há diferenças na probabilidade de se chegar atrasado à escola quando se é considerado moderado ou calmo dado que o parâmetro ß4 referente à categoria moderado apresentouse estatisticamente igual a zero ao nível de significância de 5 35 O Modelo de Regressão Logística Binária REGRESSÃO LOGÍSTICA BINÁRIA SIGNIFICÂMCIA ESTATÍSTICA DO MODELO LOGIT POR MÁXIMA VEROSSIMILHANÇA 36 O Modelo de Regressão Logística Binária REGRESSÃO LOGÍSTICA BINÁRIA O cutoff que nada mais é do que um ponto de corte é definido para que sejam classificadas as observações em função das suas probabilidades calculadas e desta forma é utilizado quando há o intuito de se elaborarem previsões de ocorrência do evento para observações não presentes na amostra com base nas probabilidades das observações presentes na amostra CUTOFF Assim se determinada observação não presente na amostra apresentar uma probabilidade de incidir no evento maior do que o cutoff definido esperase que haja a incidência do evento e portanto será classificada como evento Por outro lado se a sua probabilidade for menor do que o cutoff definido esperase que haja a incidência do não evento e portanto será classificada como não evento 37 O Modelo de Regressão Logística Binária REGRESSÃO LOGÍSTICA BINÁRIA O cutoff serve para que o pesquisador avalie a real incidência do evento para cada observação e a compare com a expectativa de que cada observação incida de fato no evento CUTOFF Com isto feito será possível avaliar a taxa de acerto do modelo com base nas próprias observações presentes na amostra e por inferência assumir que tal taxa de acerto se mantenha quando houver o intuito de avaliar a incidência do evento para outras observações não presentes na amostra previsão 38 O Modelo de Regressão Logística Binária REGRESSÃO LOGÍSTICA BINÁRIA Para a nossa amostra de 100 observações podemos elaborar a Tabela 1311 que traz a classificação completa para um cutoff de 05 CUTOFF Podemos verificar que 86 observações foram classificadas corretamente para um cutoff de 05 sendo que 56 delas foram evento e de fato foram classificadas como tal e outras 30 não foram evento e não foram classificadas como evento com este cutoff Entretanto 14 observações foram classificadas incorretamente sendo que 3 foram evento mas não foram classificadas como tal e 11 não foram evento mas foram classificadas como tendo sido 39 O Modelo de Regressão Logística Binária REGRESSÃO LOGÍSTICA BINÁRIA Corresponde ao percentual de acerto da classificação para um determinado cutoff Para o nosso exemplo a eficiência global do modelo é calculada da seguinte forma Eficiência Global do Modelo Logo para um cutoff de 05 8600 das observações são classificadas corretamente Conforme mencionado na seção 1322 a eficiência global do modelo para um determinado cuteff é bem mais adequada para se avaliar o desempenho da modelagem do que o pseudo R² de McFadden uma vez que a variável dependente apresentase na forma qualitativa dicotômica Entretanto 14 observações foram classificadas incorretamente sendo que 3 foram evento mas não foram classificadas como tal e 11 não foram evento mas foram classificadas como tendo sido 40 O Modelo de Regressão Logística Binária REGRESSÃO LOGÍSTICA BINÁRIA Diz respeito ao percentual de acerto para um determinado cuteff considerandose apenas as observações que de fato são evento Logo no nosso exemplo o denominador para o cálculo da sensitividade é 59 e sua expressão é dada por Sensitividade Assim para um cutoff de 05 9492 das observações que são evento são classificadas corretamente 41 O Modelo de Regressão Logística Binária REGRESSÃO LOGÍSTICA BINÁRIA Referese ao percentual de acerto para um dado cutoff considerandose apenas as observações que não são evento No nosso exemplo a sua expressão é dada por Especificidade Desta forma 7317 das observações que não são evento são classificadas corretamente ou seja para um cutoff de 05 apresentam probabilidades de ocorrência do evento menores do que 50 Obviamente a eficiência global do modelo a sensitividade e a especificidade mudam quando é alterado o valor do cutoff 42 O Modelo de Regressão Logística Binária REGRESSÃO LOGÍSTICA BINÁRIA Considerandose um cutoff de 03 Para este caso teremos o seguinte critério de classificação MUDANDO O CUTOFF Em comparação aos valores obtidos para um cutoff de 05 podemos perceber neste caso cutif de 03 que enquanto a sensitividade apresenta um pequeno aumento a especificidade é reduzida de forma um pouco mais acentuada o que resulta no âmbito geral numa redução percentual da eficiência global do modelo 43 O Modelo de Regressão Logística Binária REGRESSÃO LOGÍSTICA BINÁRIA Considerandose um cutoff de 07 MUDANDO O CUTOFF Neste caso verificamos outro comportamento ou seja enquanto a sensitividade apresenta uma redução considerável a especificidade aumenta Podemos inclusive perceber que a taxa de acerto para aqueles que são evento passa a ser menor do que a taxa de acerto para os que não são evento Entretanto a eficiência geral do modelo com cutoff de 07 também apresenta uma redução percentual em relação ao modelo com cutoff de 05 44 O Modelo de Regressão Logística Binária REGRESSÃO LOGÍSTICA BINÁRIA Esta análise de sensibilidade pode ser feita com qualquer valor de cutifentre Oe 1 o que permite que o pesquisador possa tomar uma decisão no sentido de definir um cutif que atenda aos seus objetivos de previsão MUDANDO O CUTOFF Se por exemplo o objetivo for o de maximizar a eficiência global do modelo pode ser utilizado um determinado cutoff que como sabemos poderá gerar valores de sensitividade ou de especificidade não maximizados Se por outro lado o objetivo for o de maximizar a sensitividade ou seja a taxa de acerto para aqueles que são evento poderá ser definido outro cutoff que não necessariamente aquele que maximizará a eficiência global do modelo 45 O Modelo de Regressão Logística Binária REGRESSÃO LOGÍSTICA BINÁRIA Gretl REFERÊNCIAS BIBLIOGRÁFICAS INTRODUÇÃO À ECONOMETRIA UMA ABORDAGEM MODERNA TRADUÇÃO DA 4ª EDIÇÃO NORTEAMERICANA JEFFREY M WOOLDRIDGE ANÁLISE MULTIVARIADA DE DADOS 6ª EDIÇÃO Hair Black Babin Anderson Tatham ANÁLISE DE DADOS MODELOS DE REGRESSÃO Com EXCEL STATA e SPSS LUIZ PAULO FÁVERO