43
Rede de Computadores
UNIBTA
1
Rede de Computadores
UNIBTA
28
Rede de Computadores
UNIBTA
1
Rede de Computadores
UNIBTA
Texto de pré-visualização
Entregas Apresentações de Projetos 60h ENCERRADO Apresentações de Projetos 20h Apresentações de trabalhos 20h Publicação de trabalho acadêmico 40h Estágio extracurricular 50h Participações em projetos sociais eou culturais 60h Monitoria acadêmica 50h Eventos esportivos 20h Participações em cursos de capacitação 40h ENCERRADO Participações em cursos de capacitação 60h Visitas técnicas 20h Visitas culturais 20h Participações em eventos acadêmicos 20h ENCERRADO Participações em eventos acadêmicos 40h Participação em Congressos 40h ENCERRADO Iniciação científica 40h Desafio Universitário 40h Cursos de Férias 60h Oficinas NAIA 40h Disciplina Optativa 60h A Aplicação de Técnicas de Machine Learning no Apoio à Detecção de Fraudes em Cartões de Crédito Uma Revisão Nome do Autor¹ Abstract The scenario of economic fraud and against financial systems around the globe is not a novelty of the 21st century but it is certain that the wide popularization of the internet has made possible the numbers of the present day As a consequence science has focused on new alternatives to stop this fraudulent behavior This article describes through a narrative review techniques used in Machine Learning to support the detection of credit card fraud Resumo O cenário de fraudes econômicos e contra sistemas financeiros ao redor do globo não é uma novidade do século XXI mas é certo que a ampla popularização da internet possibilitou os números dos dias atuais Como uma consequência a ciência tem focado em novas alternativas para barra esta conduta fraudulenta Este artigo descreve por meio de uma revisão narrativa técnicas utilizadas em Machine Learning para o apoio na detecção de fraudes com cartão de crédito 1 Introdução Fraude para Choi Lee 2018 é causada por um indivíduo que pretende obter uma vantagem desonesta Ainda segundo o autor a fraude realizada eletronicamente é conhecida como o uso indevido de elementos de computador que por meio de redes de sistemas são manipulados para obter benefícios econômicos ilícitos Da mesma forma De Medeiros et al 2015 afirmam que é importante utilizar ferramentas tecnológicas voltadas para o controle das operações realizadas por pessoas e organizações a fim de melhorar o nível de confiança e transparência nas mesmas Nesse sentido é importante destacar que a revolução tecnológica e em principal nesse contexto a efêmera popularização da internet e dos seus meios de comunicação aumentou a insegurança na realização de transações eletrônicas e para contêla são implementados sistemas de detecção de fraudes com cartões de crédito em todos os bancos globais para minimizar perdas econômicas tanto para as instituições financeiras quanto para os usuários inclusive DE MEDEIROS et al 2015 As técnicas mais modernas em inteligência artificial segurança criptográfica reconhecimento facial evoluem para resolver precisamente o problema da fraude com cartões de crédito PORTO 2015 Fraude de cartão de crédito é o uso não autorizado do cartão para fazer compras ou saques em dinheiro que são cobrados da vítima em sua conta considerada como uma das formas de roubo de identidade mais utilizadas por hackers CHOI LEE 2018 É contra esta tipologia de atividade que hoje as técnicas que foram buscam lutar contra Já atualmente Machine Learning ML ou aprendizagem de máquina é uma disciplina da inteligência artificial que possibilita que computadores funcionem sem a necessidade de serem programados com a facilidade de algoritmos que analisam e processam dados para tomada de decisão eou fazem uma previsão sobre um problema real sem ser programado por um humano CONFORTO AMARAL SILVA 2011 Assim devido a sua função o Machine Learning ajuda a minimizar fraudes com cartões de crédito que ameaçam toda a segurança dos dados e consequentemente afetam financeiramente um terceiro que para este estudo é a instituição financeira ou o cliente e o seu complexo socioeconômico envolvido Adicionalmente a Machine Learning oferece aos responsáveis pela implantação de sistemas de segurança nas empresas técnicas de aprendizagem automática para analisar anomalias na utilização de cartões de crédito que na maioria das vezes levam a situações de risco para o usuário Neste contexto estas técnicas dispõem inicialmente de uma base de dados de utilizadores genuínos e de utilizadores fraudulentos de forma a alimentar a ferramenta para que esta possa classificar a informação e modelála de acordo com os padrões e regras que foram determinados e com isso estabelecer em tempo real se a transação que está sendo realizada por determinada pessoa instituição ou local é uma operação limpa DE MEDEIROS et al 2015 CONFORTO AMARAL SILVA 2011 PORTO 2015 Com base no exposto e considerando a importância da Machine Learning para a segurança operacional de sistemas financeiros globais e por que não do funcionamento de toda a sociedade esta pesquisa busca investigar o Machine Learning e suas técnicas supervisionadas e não supervisionadas para a detecção de anomalias e prevenção de possíveis fraudes com cartão de crédito O objetivo do referido estudo é de apresentar as técnicas que se mostram mais evidentes e ativas na pesquisa contemporânea quanto às fraudes financeiras em cartões de crédito situação que hoje tem representado grandes prejuízos económicos no setor financeiro Já enquanto objetivos específicos buscase à luz do objetivo central contextualizar e conceituar o que é Machine Learning segundo a literatura que fora consultada Como resultado deste objetivo a problemática desta pesquisa se concentra em quais são as principais técnicas em evidência na literatura contemporânea em que pese a Machine Learning para detecção de anomalias e prevenção de possíveis fraudes com cartão de crédito Em resposta a tal problemática delimitouse a utilização de pesquisa de revisão bibliográfica narrativa que conforme é salientado por Gil 2002 tratase de um modelo de pesquisa contextualizado que busca oferecer soluções acerca de ampla e determinada pergunta por meio de pesquisas e documentos pesquisados Com diferença significativa da pesquisa de revisão sistemática não se lastreia por uma metodologia com ampla rigidez e filtros seletivos científicos tendo como base a concentração na busca por responder a problemática da pesquisa e como o seu escopo principal de desenvolvimento contribuir ao conhecimento de determinada área GIL 2002 Nesse sentido a relevância desta pesquisa científica se concentra na ampliação do conhecimento acerca de Machine Learning e sua contribuição à redução de fraudes bancárias ou de instituições financeiras Dividese assim em mais quatro seções centrais e análise a primeira evidencia o conceito de Machine Learning a segunda apresenta as classificações de fraudes de cartão de crédito após apresentamse técnicas bem como o estado da arte da pesquisa em Machine Learning para detecção e redução de fraudes e por fim temse as considerações finais 2 Breve Contextualização Acerca do Machine Learning Machine Learning ML é subcategoria de inteligência artificial que se refere ao processo técnico pelo qual os computadores desenvolvem reconhecimento de padrões ou capacidade de aprender continuamente e fazer previsões com base nos dados e em seguida fazer ajustes sem ser especificamente programado para isso isto é de forma autônoma não programada BROWNLEE 2016 p 23 A utilização da ML prepara e cria informação através do conhecimento e análise de características ou identificação de padrões a partir de um grande número de dados PRAJAPATI E JAIN 2018 KUMAR et al 2019 Os algoritmos de ML são divididos em três 3 categorias aprendizado supervisionado não supervisionado e finalmente por reforço Para Young 2014 p 31 O Aprendizado Supervisionado é formado quando um algoritmo aprende a partir de um conjunto de dados de treinamento composto por valores numéricos ou dados categóricos rotulados como classes que permitem classificar ou prever um resultado para isso outro conjunto de dados de validação e teste é usado Essa técnica está relacionada ao aprendizado humano que sob o ensino ou treinamento de um bom instrutor são entregues os melhores casos para o aluno assimilar Em seguida o aprendiz relata os conhecimentos adquiridos por meio de estruturas mentais e aprende Ao receber novos casos o aprendiz aplica o conhecimento anterior e gera um resultado de acordo com o problema YOUNG 2014 p 31 Por sua vez é composto por duas classes de algoritmos um para classificação por valores de resposta categórica em que os dados podem ser separados em classes específicas e outro para regressão que geram uma resposta com valores de resposta KUMAR et al 2019 Segundo Wos Pieper 2016 vários algoritmos de aprendizado supervisionado são conhecidos do clássico ao recente incluindo algoritmos baseados em árvore abordagens bayesianas redes neurais clássicas e de aprendizado profundo e algoritmos híbridos Alguns desses algoritmos permitem detectar situações anômalas e que têm sido utilizados em diferentes investigações sendo contextualizados nas seções a frente quando da análise de fraudes Já quanto às técnicas não supervisionadas estas agrupam registros de dados semelhantes que pertencem à mesma classe São úteis para detectar outliers registros que não pertencem a nenhum dos grupos Por este motivo estas técnicas no caso particular das fraudes financeiras são muito escassas situação que poderá ser encarada como uma oportunidade para estudos futuros O aprendizado não supervisionado faz inferências a partir de conjuntos de dados de entrada não rotulados Os algoritmos utilizados têm a finalidade de encontrar padrões anômalos ou características peculiares nos dados por meio de técnicas como clustering com a particularidade de agrupar e reagrupar os objetos de um conjunto de dados de acordo com sua similaridade processo de agrupamento de acordo com a dinâmica de cada algoritmo utilizado com o uso de diferentes regras para definir a similaridade dos elementos do conjunto de dados BANGOTRA et al 2018 Por sua vez Bertozzo 2019 explica que o aprendizado não supervisionado é aquele que pega informações de novas transações para detectar comportamentos anômalos Este modelo estrutura a distribuição de dados para saber mais sobre ele é um modelo subjetivo porque não possui respostas precisas É usado para agrupar os dados em algoritmos de agrupamento e algoritmos de associação BERTOZZO 2019 Alguns métodos de detecção não supervisionados que serão explorados neste estudo são Kmeans ou KMeans agrupamento hierárquico DBSCAN propagação de afinidade mapas autoorganizados floresta de isolamento e fator de outlier local os quais foram encontrados na literatura Contudo logo em frente apresentamse conceitos que estão relacionados com as fraudes no cartão de crédito 3 A Estrutura da Fraude com Cartão de Crédito e Machine Learning Um cartão de crédito é um pequeno cartão de plástico formato retangular gerado por uma instituição financeira para um usuário que o obtém em benefício da compra de bens e serviços ou adiantamento de dinheiro Tais compras entendidas como transações atualmente podem ser feitas pessoalmente ou como ocorre com uma maior frequência hoje virtualmente ADEPOJU 2019 A fraude com cartão de crédito se enquadra em duas categorias A fraudes causadas pela obtenção ilegal de cartão físico isso não pode ser feito apenas roubando o cartão do atual proprietário antes ou depois da entrega também por outros métodos nos quais um novo cartão é criado conhecido como clone que pode atuar como uma falsificação do cartão real e b fraude por obtenção ilegal de informações de cartão de crédito situação bastante comum quando o cartão é entregue em um site de compra surfing phishing AWOYEMI et al 2017 Outros autores como Zanin et al 2018 descrevem que as classificações desse tipo de fraude são mais amplas como fraude interna de cartão e fraude externa ou fraudes tradicionais relacionadas a cartões aplicação roubo sequestro de conta e falsificação fraudes relacionadas a estabelecimentos comerciais conluio e triangulação e fraude na Internet clonagem de sites geradores de cartão de crédito e sites comerciais falsos entre outros situação que para o ano de 2017 gerou prejuízos financeiros significativos para este crime pois se estes autores analisam que para cada USD 100 globais 56 centavos estão sendo perdidos para esta modalidade É importante observar que os fraudadores estudam as novas formas de imitar o comportamento de usar o cartão legítimo sendo altamente dinâmico para realizar esse ato fraudulento AWOYEMI et al 2017 para isso segundo Zanin et al 2017 estudos por meio de detecção precoce projetam um sistema de detecção de fraudes de computador FDS que analisa as informações recebidas do cartão e determina se é o usuário real ou um vigarista que está fazendo um movimento Em tempo os autores destacam ainda que um FDS é aquele que aprende com o comportamento de uso do cartão do usuário onde são identificadas transações normais e fraudes respectivamente É assim que o Machine Learning é usado supervisionado e não supervisionado para ser aplicado ao conjunto de dados Para combinar técnicas avançadas de Machine Learning que identificam e respondem a ataques os modelos estáticos são eficazes pois conseguem identificar padrões históricos de fraude Os de autoaprendizagem incluem novos dados de transação para reconhecer e se adaptar à evolução das fraudes que refletem as últimas tendências para concentrar esforços e garantir a autenticidade dos pedidos dos clientes através da rede AWOYEMI et al 2017 Nesse sentido empresas têm se aventurado como uma estratégia de prevenção na aplicação de técnicas de ML para detectar fraudes de forma preditiva e auxiliar o trabalho Essas ferramentas podem fornecer ao profissional mais informações para análise e ao mesmo tempo contribuir para melhorar o aproveitamento do tempo Da mesma forma realiza processos que agilizam a detecção de fraudes antecipandose inclusive com o uso da Inteligência Artificial como grande aliada para o trabalho do auditor BERTOZZO 2019 Essas técnicas preditivas de reconhecimento de padrões identificariam a tendência à fraude financeira forneceriam o significado de dados sobre atividades suspeitas que não são fáceis de detectar por humanos o que implicaria o uso algoritmos bemsucedidos que estabelecem alertas antecipados economizando tempo na revisão reduzindo o número de falsos positivos e interrompendo a ação fraudulenta em tempo hábil BERTOZZO 2019 DE MEDEIROS et al 2015 CONFORTO AMARAL SILVA 2011 PORTO 2015 e são discutidas em frente 4 Soluções em Machine Learning para Fraude com Cartão de Crédito É pertinente observar que o uso dessas técnicas de ML requer que uma amostra classificada de dados exista anteriormente para que essas técnicas possam aprender ou modelar de maneira semelhante Por exemplo para detecção de fraude de cartão de crédito o classificador de Machine Learning tentará rotular toda as transações que provavelmente sejam fraudulentas com base em conjunto de casos de fraude conhecidos DE MEDEIROS et al 2015 CONFORTO AMARAL SILVA 2011 Por esta razão a categorização é vital na previsão e deve ser organizada em classes e atributos que definam sua pertença considerando assim todas as diferenças relevantes derivadas de combinações de atributos ou variáveis DE MEDEIROS et al 2015 CONFORTO AMARAL SILVA 2011 Por sua vez no que diz respeito às instituições financeiras estas exigem o reconhecimento de transações incomuns para a detecção de valores atípicos anormais ou incomuns que podem ser gerados por um usuário ou cliente ou que às vezes são gerados por pessoas de criminosos que pegam dados de cartões de crédito e realizam transações fraudulentas que afetam a instituição financeira ou o cliente BUITINCK et al 2013 BANGOTRA et al 2018 No entanto no caso de detecção por exemplo de outliers é difícil reconhecer esses problemas pois não há um conjunto de dados limpo que represente a população de observações regulares que possa ser usada para treinar toda e qualquer ferramenta BUITINCK et al 2013 Sobretudo sabese que existem uma gama de técnicas que são aludidas em face da ML para a detecção e prevenção de fraudes em cartão de créditos expostas aquelas com mais evidência na literatura no Quadro 1 a frente Quadro 1 Técnicas encontradas na Literatura Autores TécnicaAlgoritmo Usado Resultados Zareapoor et al 2017 Bayesiana e neural A rede bayesiana tem um desempenho melhor do que a rede neural na detecção de fraudes com cartão de crédito Kou et al 2014 Árvores de decisão e máquinas de vetores de suporte SVM Os classificadores propostos das abordagens de árvore de decisão superam as abordagens SVM na solução do problema sob investigação Shen et al 2017 Árvore de decisão redes neurais e regressão logística O classificador de rede neural proposto e as abordagens de regressão logística superam a árvore de decisão na solução do problema sob investigação Vanschoenwinkel et al 2011 Regressão logística junto com duas abordagens avançadas de mineração de dados suporte a máquinas vetoriais e florestas aleatórias A regressão logística mostra um desempenho perceptível geralmente superando os modelos SVM com diferentes núcleos Huang 2014 Redes Neurais Artificiais ANN e Regressão Logística LR são desenvolvidas e aplicadas ao problema de detecção de fraudes em cartões de crédito Os resultados mostram que os classificadores de RNA propostos superam os classificadores LR na resolução do problema sob investigação Duman et al 2013 Árvore de decisão rede neural e classificadores Naive Bayes Os classificadores de redes neurais são adequados apenas para bancos de dados maiores e requerem muito tempo para treinar o modelo Classificadores bayesianos são mais precisos e mais rápidos para treinar e adequados a diferentes tamanhos de dados mas lentos quando aplicados a outras novas instâncias Awoyemi et al 2017 Árvore de decisão bayesianos ingênuos e algoritmos de vizinho mais próximo Usando o algoritmo bayesiano ingênuo como o algoritmo de metanível para combinar as previsões do classificador base o resultado mostra uma melhoria de desempenho de 28 Dighe et al 2018 Naïve Bayes e a árvore de decisão Os resultados mostram que a eficiência e precisão do J48 é melhor que a do Naïve Bayes Fonte Elaborado pelo Autor 2022 Na literatura observada para muito além dos algoritmos apresentados existem outras modelos ou especificações dos modelos já apresentados que também foram apresentados quando confirmados referenciais teóricos e as referências consultadas nestas pesquisas Algumas das mais importantes são evidenciadas logo em frente A primeira destas é a regressão logística Esta é um algoritmo de classificação que encontra o melhor parâmetro de ajuste para estimar a probabilidade da resposta binária com base em uma ou mais características AWOYEMI et al 2017 Na regressão logística a variável dependente é uma variável binária que contém dados codificados como 10 simnão abertofechado A referida regressão é utilizada para estimar a probabilidade de uma resposta binária com base em um ou mais preditores ou variáveis independentes características AWOYEMI et al 2017 DIGHE et al 2018 Também usa a função sigmóide para atribuir valores previstos a probabilidades A razão pela qual a regressão logística é amplamente utilizada apesar de algoritmos avançados como novas redes neurais devese à sua eficiência e baixo requisito computacional para sua execução AWOYEMI et al 2017 Outra é a Neighbors KNearest Neighbors É um algoritmo de classificação K Nearest Neighbor KNN São métodos de aprendizado supervisionados baseados em instâncias que classificam de acordo com uma medida de similaridade como funções de distância Euclidiana Manhattan ou Minkowski DUMAN et al 2013 p 214 Como conjunto de dados do cartão de crédito contém variáveis contínuas a medida de distância euclidiana é usada É um classificador sólido usado como ponto de referência para classificadores mais complexos como redes neurais artificiais e vetores de suporte usados em diferentes aplicações como previsão econômica fraude financeira genética entre outros AWOYEMI et al 2017 Outra observada é a Naïve Bayes um algoritmo de classificação com abordagem estatística baseada na teoria bayesiana que escolhe a decisão com base na maior probabilidade O classificador Naïve Bayes é baseado nas probabilidades condicionais que podem ser obtidas usando a fórmula de Bayes e o resultado é categórico fraude e não fraude DIGHE et al 2018 Temse também o Support Vector Machines que é algoritmo de classificação discriminatória formalmente definido por um hiperplano separador Em outras palavras dados os dados de treinamento rotulados o algoritmo gera um hiperplano ótimo que classifica os novos exemplos em espaços bidimensionais HUANG 2014 Outros que também foram evidenciados são a arvore de Decisão algoritmo para classificação de problemas referese a um conjunto de condições organizadas com uma estrutura hierárquica para que a decisão se ajusta ao cumprimento das condições desde a raiz até as folhas e Random Forest um algoritmo de classificação que é composto de muitas árvores de decisão É muito eficaz quando há um número maior de árvores na floresta isso evita o overfitting do modelo KOU et al 2014 Por fim temse ainda o DBSCAN um algoritmo determinístico que considera os clusters como áreas de alta densidade separadas por áreas de baixa densidade O foco desse método é criar grupos com tamanho e densidade mínimos Devido a essa visão um tanto genérica os clusters encontrados pelo DBSCAN podem ter qualquer forma ao contrário do kmeans que assume que os clusters têm uma forma convexa SHEN et al 2014 AWOYEMI et al 2017 e a propagação por afinidade um algoritmo que cria grupos enviando mensagens entre pares de amostras até convergirem O algoritmo aglomerativo cumpre a função de integrar a partição de dados com novo agrupamento hierárquico aglomerativo Essa atualização ocorre até que a convergência seja alcançada momento em que exemplos finais são escolhidos e portanto o agrupamento final é fornecido ZAREAPOOR et al 2015 5 Considerações Finais As técnicas de Machine Learning ganham cada dia mais importância na gestão das transações com cartão de crédito principalmente pela sua eficácia na detecção ou antecipação de fraudes auxiliando as empresas a reduzirem os prejuízos econômicos e por sua vez os usuários de cartão de crédito que se sentem seguros com as medidas adotadas na detecção precoce de um ato fraudulento De acordo com a análise das informações obtidas sobre a aplicação de diferentes técnicas de Machine Learning na detecção de fraudes com cartões de crédito podese determinar que os algoritmos não supervisionados fornecem melhores resultados e maior eficácia em tempo real ao estabelecer se uma transação é fraudulenta pois eles têm a capacidade de separar os dados sem rótulos agrupálos por semelhança e auto aprender na medida em que ameaças cibernéticas de fraude financeira aparecem nos sistemas de computador das organizações Por fim são várias as investigações que vêm sendo realizadas desde 2000 Observase uma preocupação ostensiva em coibir fraudes com cartões de crédito ainda mais quando seu uso é massivo e sua importância para a segurança da economia é demasiada incalculável Referências ADEPOJU O et al Comparative Evaluation of Credit Card Fraud Detection Using Machine Learning Techniques Sl Scopus 2019 AWOYEMI J O et al Credit card fraud detection using machine learning techniques A comparative analysis ICCNI p 19 2017 BERTOZZO R J Aplicação de machine learning em dataset de consultas médicas do sus Universidade Federal de Santa Catarina Florianópolis 2019 BROWNLEE Jason XGBoost With Python Gradient Boosted Trees with XGBoost and scikitlearn Machine Learning Mastery 2016 BUITINCK Lian et al Design for machine learning software experiences from the scikitlearn Mastery 2013 CHOI Dahee LEE Kyungho An artificial intelligence approach to financial fraud detection under IoT environment A survey and implementation Security and Communication Networks 2018 CONFORTO Edivandro Carlos AMARAL Daniel Capaldo SILVA SL da Roteiro para revisão bibliográfica sistemática aplicação no desenvolvimento de produtos e gerenciamento de projetos In 8º Congresso Brasileiro de Gestão de Desenvolvimento de Produto Porto Alegre RS Brasil Anais pages 112 2011 DE MEDEIROS Ivan Luiz et al Revisão Sistemática e Bibliometria facilitadas por um Canvas para visualização de informação InfoDesignRevista Brasileira de Design da Informação v 12 n 1 p 93110 20157 DIGHE Dian et al Detection of Credit Card Fraud Transactions Using Machine Learning Algorithms and Neural Networks A Comparative Study Fourth International Conference on Computing Communication Control and Automation 2018 DUMAN Edward A novel and successful credit card fraud detection system implemented in a turkish bank In Data Mining Workshops ICDMW 2013 KOU Yang et al Survey of Fraud Detection Techniques In Proceedings of the IEEE International Conference on Networking Sensing Control Taipei Taiwan 2014 KUMAR Dian et al Machine learning algorithms for wireless sensor networks A survey Information Fusion 125 2019 PORTO A V Modelos computacionales y metodologias utilizadas en la deteccion de fraude de las tarjetas de credito Universidad Nacional La Plata 2015 WOS Lian PIEPER Glass Automated Reasoning and the Discovery of Missing and Elegant Proofs Rinton Press 2016 ZANIN Massimiliano et al Credit card fraud detection through parenclitic network analysis Complexity v 2018 2018 ZAREAPOOR Masoumeh et al Application of credit card fraud detection Based on bagging ensemble classifier Procedia computer science v 48 n 2015 YOUNG Hugo Strategic Learning and Its Limits Oxford University Press 2014 SHEN Arian et al Application of classification models on credit card fraud detection In Service Systems and Service Management 2017 BHATTACHARYYA Suan Et al Data mining for credit card fraud A comparative study Decision Support Systems v 50 n 3 p 602613 2013
43
Rede de Computadores
UNIBTA
1
Rede de Computadores
UNIBTA
28
Rede de Computadores
UNIBTA
1
Rede de Computadores
UNIBTA
Texto de pré-visualização
Entregas Apresentações de Projetos 60h ENCERRADO Apresentações de Projetos 20h Apresentações de trabalhos 20h Publicação de trabalho acadêmico 40h Estágio extracurricular 50h Participações em projetos sociais eou culturais 60h Monitoria acadêmica 50h Eventos esportivos 20h Participações em cursos de capacitação 40h ENCERRADO Participações em cursos de capacitação 60h Visitas técnicas 20h Visitas culturais 20h Participações em eventos acadêmicos 20h ENCERRADO Participações em eventos acadêmicos 40h Participação em Congressos 40h ENCERRADO Iniciação científica 40h Desafio Universitário 40h Cursos de Férias 60h Oficinas NAIA 40h Disciplina Optativa 60h A Aplicação de Técnicas de Machine Learning no Apoio à Detecção de Fraudes em Cartões de Crédito Uma Revisão Nome do Autor¹ Abstract The scenario of economic fraud and against financial systems around the globe is not a novelty of the 21st century but it is certain that the wide popularization of the internet has made possible the numbers of the present day As a consequence science has focused on new alternatives to stop this fraudulent behavior This article describes through a narrative review techniques used in Machine Learning to support the detection of credit card fraud Resumo O cenário de fraudes econômicos e contra sistemas financeiros ao redor do globo não é uma novidade do século XXI mas é certo que a ampla popularização da internet possibilitou os números dos dias atuais Como uma consequência a ciência tem focado em novas alternativas para barra esta conduta fraudulenta Este artigo descreve por meio de uma revisão narrativa técnicas utilizadas em Machine Learning para o apoio na detecção de fraudes com cartão de crédito 1 Introdução Fraude para Choi Lee 2018 é causada por um indivíduo que pretende obter uma vantagem desonesta Ainda segundo o autor a fraude realizada eletronicamente é conhecida como o uso indevido de elementos de computador que por meio de redes de sistemas são manipulados para obter benefícios econômicos ilícitos Da mesma forma De Medeiros et al 2015 afirmam que é importante utilizar ferramentas tecnológicas voltadas para o controle das operações realizadas por pessoas e organizações a fim de melhorar o nível de confiança e transparência nas mesmas Nesse sentido é importante destacar que a revolução tecnológica e em principal nesse contexto a efêmera popularização da internet e dos seus meios de comunicação aumentou a insegurança na realização de transações eletrônicas e para contêla são implementados sistemas de detecção de fraudes com cartões de crédito em todos os bancos globais para minimizar perdas econômicas tanto para as instituições financeiras quanto para os usuários inclusive DE MEDEIROS et al 2015 As técnicas mais modernas em inteligência artificial segurança criptográfica reconhecimento facial evoluem para resolver precisamente o problema da fraude com cartões de crédito PORTO 2015 Fraude de cartão de crédito é o uso não autorizado do cartão para fazer compras ou saques em dinheiro que são cobrados da vítima em sua conta considerada como uma das formas de roubo de identidade mais utilizadas por hackers CHOI LEE 2018 É contra esta tipologia de atividade que hoje as técnicas que foram buscam lutar contra Já atualmente Machine Learning ML ou aprendizagem de máquina é uma disciplina da inteligência artificial que possibilita que computadores funcionem sem a necessidade de serem programados com a facilidade de algoritmos que analisam e processam dados para tomada de decisão eou fazem uma previsão sobre um problema real sem ser programado por um humano CONFORTO AMARAL SILVA 2011 Assim devido a sua função o Machine Learning ajuda a minimizar fraudes com cartões de crédito que ameaçam toda a segurança dos dados e consequentemente afetam financeiramente um terceiro que para este estudo é a instituição financeira ou o cliente e o seu complexo socioeconômico envolvido Adicionalmente a Machine Learning oferece aos responsáveis pela implantação de sistemas de segurança nas empresas técnicas de aprendizagem automática para analisar anomalias na utilização de cartões de crédito que na maioria das vezes levam a situações de risco para o usuário Neste contexto estas técnicas dispõem inicialmente de uma base de dados de utilizadores genuínos e de utilizadores fraudulentos de forma a alimentar a ferramenta para que esta possa classificar a informação e modelála de acordo com os padrões e regras que foram determinados e com isso estabelecer em tempo real se a transação que está sendo realizada por determinada pessoa instituição ou local é uma operação limpa DE MEDEIROS et al 2015 CONFORTO AMARAL SILVA 2011 PORTO 2015 Com base no exposto e considerando a importância da Machine Learning para a segurança operacional de sistemas financeiros globais e por que não do funcionamento de toda a sociedade esta pesquisa busca investigar o Machine Learning e suas técnicas supervisionadas e não supervisionadas para a detecção de anomalias e prevenção de possíveis fraudes com cartão de crédito O objetivo do referido estudo é de apresentar as técnicas que se mostram mais evidentes e ativas na pesquisa contemporânea quanto às fraudes financeiras em cartões de crédito situação que hoje tem representado grandes prejuízos económicos no setor financeiro Já enquanto objetivos específicos buscase à luz do objetivo central contextualizar e conceituar o que é Machine Learning segundo a literatura que fora consultada Como resultado deste objetivo a problemática desta pesquisa se concentra em quais são as principais técnicas em evidência na literatura contemporânea em que pese a Machine Learning para detecção de anomalias e prevenção de possíveis fraudes com cartão de crédito Em resposta a tal problemática delimitouse a utilização de pesquisa de revisão bibliográfica narrativa que conforme é salientado por Gil 2002 tratase de um modelo de pesquisa contextualizado que busca oferecer soluções acerca de ampla e determinada pergunta por meio de pesquisas e documentos pesquisados Com diferença significativa da pesquisa de revisão sistemática não se lastreia por uma metodologia com ampla rigidez e filtros seletivos científicos tendo como base a concentração na busca por responder a problemática da pesquisa e como o seu escopo principal de desenvolvimento contribuir ao conhecimento de determinada área GIL 2002 Nesse sentido a relevância desta pesquisa científica se concentra na ampliação do conhecimento acerca de Machine Learning e sua contribuição à redução de fraudes bancárias ou de instituições financeiras Dividese assim em mais quatro seções centrais e análise a primeira evidencia o conceito de Machine Learning a segunda apresenta as classificações de fraudes de cartão de crédito após apresentamse técnicas bem como o estado da arte da pesquisa em Machine Learning para detecção e redução de fraudes e por fim temse as considerações finais 2 Breve Contextualização Acerca do Machine Learning Machine Learning ML é subcategoria de inteligência artificial que se refere ao processo técnico pelo qual os computadores desenvolvem reconhecimento de padrões ou capacidade de aprender continuamente e fazer previsões com base nos dados e em seguida fazer ajustes sem ser especificamente programado para isso isto é de forma autônoma não programada BROWNLEE 2016 p 23 A utilização da ML prepara e cria informação através do conhecimento e análise de características ou identificação de padrões a partir de um grande número de dados PRAJAPATI E JAIN 2018 KUMAR et al 2019 Os algoritmos de ML são divididos em três 3 categorias aprendizado supervisionado não supervisionado e finalmente por reforço Para Young 2014 p 31 O Aprendizado Supervisionado é formado quando um algoritmo aprende a partir de um conjunto de dados de treinamento composto por valores numéricos ou dados categóricos rotulados como classes que permitem classificar ou prever um resultado para isso outro conjunto de dados de validação e teste é usado Essa técnica está relacionada ao aprendizado humano que sob o ensino ou treinamento de um bom instrutor são entregues os melhores casos para o aluno assimilar Em seguida o aprendiz relata os conhecimentos adquiridos por meio de estruturas mentais e aprende Ao receber novos casos o aprendiz aplica o conhecimento anterior e gera um resultado de acordo com o problema YOUNG 2014 p 31 Por sua vez é composto por duas classes de algoritmos um para classificação por valores de resposta categórica em que os dados podem ser separados em classes específicas e outro para regressão que geram uma resposta com valores de resposta KUMAR et al 2019 Segundo Wos Pieper 2016 vários algoritmos de aprendizado supervisionado são conhecidos do clássico ao recente incluindo algoritmos baseados em árvore abordagens bayesianas redes neurais clássicas e de aprendizado profundo e algoritmos híbridos Alguns desses algoritmos permitem detectar situações anômalas e que têm sido utilizados em diferentes investigações sendo contextualizados nas seções a frente quando da análise de fraudes Já quanto às técnicas não supervisionadas estas agrupam registros de dados semelhantes que pertencem à mesma classe São úteis para detectar outliers registros que não pertencem a nenhum dos grupos Por este motivo estas técnicas no caso particular das fraudes financeiras são muito escassas situação que poderá ser encarada como uma oportunidade para estudos futuros O aprendizado não supervisionado faz inferências a partir de conjuntos de dados de entrada não rotulados Os algoritmos utilizados têm a finalidade de encontrar padrões anômalos ou características peculiares nos dados por meio de técnicas como clustering com a particularidade de agrupar e reagrupar os objetos de um conjunto de dados de acordo com sua similaridade processo de agrupamento de acordo com a dinâmica de cada algoritmo utilizado com o uso de diferentes regras para definir a similaridade dos elementos do conjunto de dados BANGOTRA et al 2018 Por sua vez Bertozzo 2019 explica que o aprendizado não supervisionado é aquele que pega informações de novas transações para detectar comportamentos anômalos Este modelo estrutura a distribuição de dados para saber mais sobre ele é um modelo subjetivo porque não possui respostas precisas É usado para agrupar os dados em algoritmos de agrupamento e algoritmos de associação BERTOZZO 2019 Alguns métodos de detecção não supervisionados que serão explorados neste estudo são Kmeans ou KMeans agrupamento hierárquico DBSCAN propagação de afinidade mapas autoorganizados floresta de isolamento e fator de outlier local os quais foram encontrados na literatura Contudo logo em frente apresentamse conceitos que estão relacionados com as fraudes no cartão de crédito 3 A Estrutura da Fraude com Cartão de Crédito e Machine Learning Um cartão de crédito é um pequeno cartão de plástico formato retangular gerado por uma instituição financeira para um usuário que o obtém em benefício da compra de bens e serviços ou adiantamento de dinheiro Tais compras entendidas como transações atualmente podem ser feitas pessoalmente ou como ocorre com uma maior frequência hoje virtualmente ADEPOJU 2019 A fraude com cartão de crédito se enquadra em duas categorias A fraudes causadas pela obtenção ilegal de cartão físico isso não pode ser feito apenas roubando o cartão do atual proprietário antes ou depois da entrega também por outros métodos nos quais um novo cartão é criado conhecido como clone que pode atuar como uma falsificação do cartão real e b fraude por obtenção ilegal de informações de cartão de crédito situação bastante comum quando o cartão é entregue em um site de compra surfing phishing AWOYEMI et al 2017 Outros autores como Zanin et al 2018 descrevem que as classificações desse tipo de fraude são mais amplas como fraude interna de cartão e fraude externa ou fraudes tradicionais relacionadas a cartões aplicação roubo sequestro de conta e falsificação fraudes relacionadas a estabelecimentos comerciais conluio e triangulação e fraude na Internet clonagem de sites geradores de cartão de crédito e sites comerciais falsos entre outros situação que para o ano de 2017 gerou prejuízos financeiros significativos para este crime pois se estes autores analisam que para cada USD 100 globais 56 centavos estão sendo perdidos para esta modalidade É importante observar que os fraudadores estudam as novas formas de imitar o comportamento de usar o cartão legítimo sendo altamente dinâmico para realizar esse ato fraudulento AWOYEMI et al 2017 para isso segundo Zanin et al 2017 estudos por meio de detecção precoce projetam um sistema de detecção de fraudes de computador FDS que analisa as informações recebidas do cartão e determina se é o usuário real ou um vigarista que está fazendo um movimento Em tempo os autores destacam ainda que um FDS é aquele que aprende com o comportamento de uso do cartão do usuário onde são identificadas transações normais e fraudes respectivamente É assim que o Machine Learning é usado supervisionado e não supervisionado para ser aplicado ao conjunto de dados Para combinar técnicas avançadas de Machine Learning que identificam e respondem a ataques os modelos estáticos são eficazes pois conseguem identificar padrões históricos de fraude Os de autoaprendizagem incluem novos dados de transação para reconhecer e se adaptar à evolução das fraudes que refletem as últimas tendências para concentrar esforços e garantir a autenticidade dos pedidos dos clientes através da rede AWOYEMI et al 2017 Nesse sentido empresas têm se aventurado como uma estratégia de prevenção na aplicação de técnicas de ML para detectar fraudes de forma preditiva e auxiliar o trabalho Essas ferramentas podem fornecer ao profissional mais informações para análise e ao mesmo tempo contribuir para melhorar o aproveitamento do tempo Da mesma forma realiza processos que agilizam a detecção de fraudes antecipandose inclusive com o uso da Inteligência Artificial como grande aliada para o trabalho do auditor BERTOZZO 2019 Essas técnicas preditivas de reconhecimento de padrões identificariam a tendência à fraude financeira forneceriam o significado de dados sobre atividades suspeitas que não são fáceis de detectar por humanos o que implicaria o uso algoritmos bemsucedidos que estabelecem alertas antecipados economizando tempo na revisão reduzindo o número de falsos positivos e interrompendo a ação fraudulenta em tempo hábil BERTOZZO 2019 DE MEDEIROS et al 2015 CONFORTO AMARAL SILVA 2011 PORTO 2015 e são discutidas em frente 4 Soluções em Machine Learning para Fraude com Cartão de Crédito É pertinente observar que o uso dessas técnicas de ML requer que uma amostra classificada de dados exista anteriormente para que essas técnicas possam aprender ou modelar de maneira semelhante Por exemplo para detecção de fraude de cartão de crédito o classificador de Machine Learning tentará rotular toda as transações que provavelmente sejam fraudulentas com base em conjunto de casos de fraude conhecidos DE MEDEIROS et al 2015 CONFORTO AMARAL SILVA 2011 Por esta razão a categorização é vital na previsão e deve ser organizada em classes e atributos que definam sua pertença considerando assim todas as diferenças relevantes derivadas de combinações de atributos ou variáveis DE MEDEIROS et al 2015 CONFORTO AMARAL SILVA 2011 Por sua vez no que diz respeito às instituições financeiras estas exigem o reconhecimento de transações incomuns para a detecção de valores atípicos anormais ou incomuns que podem ser gerados por um usuário ou cliente ou que às vezes são gerados por pessoas de criminosos que pegam dados de cartões de crédito e realizam transações fraudulentas que afetam a instituição financeira ou o cliente BUITINCK et al 2013 BANGOTRA et al 2018 No entanto no caso de detecção por exemplo de outliers é difícil reconhecer esses problemas pois não há um conjunto de dados limpo que represente a população de observações regulares que possa ser usada para treinar toda e qualquer ferramenta BUITINCK et al 2013 Sobretudo sabese que existem uma gama de técnicas que são aludidas em face da ML para a detecção e prevenção de fraudes em cartão de créditos expostas aquelas com mais evidência na literatura no Quadro 1 a frente Quadro 1 Técnicas encontradas na Literatura Autores TécnicaAlgoritmo Usado Resultados Zareapoor et al 2017 Bayesiana e neural A rede bayesiana tem um desempenho melhor do que a rede neural na detecção de fraudes com cartão de crédito Kou et al 2014 Árvores de decisão e máquinas de vetores de suporte SVM Os classificadores propostos das abordagens de árvore de decisão superam as abordagens SVM na solução do problema sob investigação Shen et al 2017 Árvore de decisão redes neurais e regressão logística O classificador de rede neural proposto e as abordagens de regressão logística superam a árvore de decisão na solução do problema sob investigação Vanschoenwinkel et al 2011 Regressão logística junto com duas abordagens avançadas de mineração de dados suporte a máquinas vetoriais e florestas aleatórias A regressão logística mostra um desempenho perceptível geralmente superando os modelos SVM com diferentes núcleos Huang 2014 Redes Neurais Artificiais ANN e Regressão Logística LR são desenvolvidas e aplicadas ao problema de detecção de fraudes em cartões de crédito Os resultados mostram que os classificadores de RNA propostos superam os classificadores LR na resolução do problema sob investigação Duman et al 2013 Árvore de decisão rede neural e classificadores Naive Bayes Os classificadores de redes neurais são adequados apenas para bancos de dados maiores e requerem muito tempo para treinar o modelo Classificadores bayesianos são mais precisos e mais rápidos para treinar e adequados a diferentes tamanhos de dados mas lentos quando aplicados a outras novas instâncias Awoyemi et al 2017 Árvore de decisão bayesianos ingênuos e algoritmos de vizinho mais próximo Usando o algoritmo bayesiano ingênuo como o algoritmo de metanível para combinar as previsões do classificador base o resultado mostra uma melhoria de desempenho de 28 Dighe et al 2018 Naïve Bayes e a árvore de decisão Os resultados mostram que a eficiência e precisão do J48 é melhor que a do Naïve Bayes Fonte Elaborado pelo Autor 2022 Na literatura observada para muito além dos algoritmos apresentados existem outras modelos ou especificações dos modelos já apresentados que também foram apresentados quando confirmados referenciais teóricos e as referências consultadas nestas pesquisas Algumas das mais importantes são evidenciadas logo em frente A primeira destas é a regressão logística Esta é um algoritmo de classificação que encontra o melhor parâmetro de ajuste para estimar a probabilidade da resposta binária com base em uma ou mais características AWOYEMI et al 2017 Na regressão logística a variável dependente é uma variável binária que contém dados codificados como 10 simnão abertofechado A referida regressão é utilizada para estimar a probabilidade de uma resposta binária com base em um ou mais preditores ou variáveis independentes características AWOYEMI et al 2017 DIGHE et al 2018 Também usa a função sigmóide para atribuir valores previstos a probabilidades A razão pela qual a regressão logística é amplamente utilizada apesar de algoritmos avançados como novas redes neurais devese à sua eficiência e baixo requisito computacional para sua execução AWOYEMI et al 2017 Outra é a Neighbors KNearest Neighbors É um algoritmo de classificação K Nearest Neighbor KNN São métodos de aprendizado supervisionados baseados em instâncias que classificam de acordo com uma medida de similaridade como funções de distância Euclidiana Manhattan ou Minkowski DUMAN et al 2013 p 214 Como conjunto de dados do cartão de crédito contém variáveis contínuas a medida de distância euclidiana é usada É um classificador sólido usado como ponto de referência para classificadores mais complexos como redes neurais artificiais e vetores de suporte usados em diferentes aplicações como previsão econômica fraude financeira genética entre outros AWOYEMI et al 2017 Outra observada é a Naïve Bayes um algoritmo de classificação com abordagem estatística baseada na teoria bayesiana que escolhe a decisão com base na maior probabilidade O classificador Naïve Bayes é baseado nas probabilidades condicionais que podem ser obtidas usando a fórmula de Bayes e o resultado é categórico fraude e não fraude DIGHE et al 2018 Temse também o Support Vector Machines que é algoritmo de classificação discriminatória formalmente definido por um hiperplano separador Em outras palavras dados os dados de treinamento rotulados o algoritmo gera um hiperplano ótimo que classifica os novos exemplos em espaços bidimensionais HUANG 2014 Outros que também foram evidenciados são a arvore de Decisão algoritmo para classificação de problemas referese a um conjunto de condições organizadas com uma estrutura hierárquica para que a decisão se ajusta ao cumprimento das condições desde a raiz até as folhas e Random Forest um algoritmo de classificação que é composto de muitas árvores de decisão É muito eficaz quando há um número maior de árvores na floresta isso evita o overfitting do modelo KOU et al 2014 Por fim temse ainda o DBSCAN um algoritmo determinístico que considera os clusters como áreas de alta densidade separadas por áreas de baixa densidade O foco desse método é criar grupos com tamanho e densidade mínimos Devido a essa visão um tanto genérica os clusters encontrados pelo DBSCAN podem ter qualquer forma ao contrário do kmeans que assume que os clusters têm uma forma convexa SHEN et al 2014 AWOYEMI et al 2017 e a propagação por afinidade um algoritmo que cria grupos enviando mensagens entre pares de amostras até convergirem O algoritmo aglomerativo cumpre a função de integrar a partição de dados com novo agrupamento hierárquico aglomerativo Essa atualização ocorre até que a convergência seja alcançada momento em que exemplos finais são escolhidos e portanto o agrupamento final é fornecido ZAREAPOOR et al 2015 5 Considerações Finais As técnicas de Machine Learning ganham cada dia mais importância na gestão das transações com cartão de crédito principalmente pela sua eficácia na detecção ou antecipação de fraudes auxiliando as empresas a reduzirem os prejuízos econômicos e por sua vez os usuários de cartão de crédito que se sentem seguros com as medidas adotadas na detecção precoce de um ato fraudulento De acordo com a análise das informações obtidas sobre a aplicação de diferentes técnicas de Machine Learning na detecção de fraudes com cartões de crédito podese determinar que os algoritmos não supervisionados fornecem melhores resultados e maior eficácia em tempo real ao estabelecer se uma transação é fraudulenta pois eles têm a capacidade de separar os dados sem rótulos agrupálos por semelhança e auto aprender na medida em que ameaças cibernéticas de fraude financeira aparecem nos sistemas de computador das organizações Por fim são várias as investigações que vêm sendo realizadas desde 2000 Observase uma preocupação ostensiva em coibir fraudes com cartões de crédito ainda mais quando seu uso é massivo e sua importância para a segurança da economia é demasiada incalculável Referências ADEPOJU O et al Comparative Evaluation of Credit Card Fraud Detection Using Machine Learning Techniques Sl Scopus 2019 AWOYEMI J O et al Credit card fraud detection using machine learning techniques A comparative analysis ICCNI p 19 2017 BERTOZZO R J Aplicação de machine learning em dataset de consultas médicas do sus Universidade Federal de Santa Catarina Florianópolis 2019 BROWNLEE Jason XGBoost With Python Gradient Boosted Trees with XGBoost and scikitlearn Machine Learning Mastery 2016 BUITINCK Lian et al Design for machine learning software experiences from the scikitlearn Mastery 2013 CHOI Dahee LEE Kyungho An artificial intelligence approach to financial fraud detection under IoT environment A survey and implementation Security and Communication Networks 2018 CONFORTO Edivandro Carlos AMARAL Daniel Capaldo SILVA SL da Roteiro para revisão bibliográfica sistemática aplicação no desenvolvimento de produtos e gerenciamento de projetos In 8º Congresso Brasileiro de Gestão de Desenvolvimento de Produto Porto Alegre RS Brasil Anais pages 112 2011 DE MEDEIROS Ivan Luiz et al Revisão Sistemática e Bibliometria facilitadas por um Canvas para visualização de informação InfoDesignRevista Brasileira de Design da Informação v 12 n 1 p 93110 20157 DIGHE Dian et al Detection of Credit Card Fraud Transactions Using Machine Learning Algorithms and Neural Networks A Comparative Study Fourth International Conference on Computing Communication Control and Automation 2018 DUMAN Edward A novel and successful credit card fraud detection system implemented in a turkish bank In Data Mining Workshops ICDMW 2013 KOU Yang et al Survey of Fraud Detection Techniques In Proceedings of the IEEE International Conference on Networking Sensing Control Taipei Taiwan 2014 KUMAR Dian et al Machine learning algorithms for wireless sensor networks A survey Information Fusion 125 2019 PORTO A V Modelos computacionales y metodologias utilizadas en la deteccion de fraude de las tarjetas de credito Universidad Nacional La Plata 2015 WOS Lian PIEPER Glass Automated Reasoning and the Discovery of Missing and Elegant Proofs Rinton Press 2016 ZANIN Massimiliano et al Credit card fraud detection through parenclitic network analysis Complexity v 2018 2018 ZAREAPOOR Masoumeh et al Application of credit card fraud detection Based on bagging ensemble classifier Procedia computer science v 48 n 2015 YOUNG Hugo Strategic Learning and Its Limits Oxford University Press 2014 SHEN Arian et al Application of classification models on credit card fraud detection In Service Systems and Service Management 2017 BHATTACHARYYA Suan Et al Data mining for credit card fraud A comparative study Decision Support Systems v 50 n 3 p 602613 2013