• Home
  • Chat IA
  • Guru IA
  • Tutores
  • Central de ajuda
Home
Chat IA
Guru IA
Tutores

·

Cursos Gerais ·

Linguagens de Programação

Envie sua pergunta para a IA e receba a resposta na hora

Recomendado para você

Programação

210

Programação

Linguagens de Programação

FMU

Questionario Indisponivel N2 A5 23-29 Jun 2022

1

Questionario Indisponivel N2 A5 23-29 Jun 2022

Linguagens de Programação

FMU

Lógica e Programação

36

Lógica e Programação

Linguagens de Programação

FMU

Programação em C

3

Programação em C

Linguagens de Programação

FMU

Resolver Exercicio

13

Resolver Exercicio

Linguagens de Programação

FMU

Programação

202

Programação

Linguagens de Programação

FMU

Linguagem de Programação

215

Linguagem de Programação

Linguagens de Programação

FMU

PIM II Analise e Desenvolvimento de Sistema Coworking - UNIP

16

PIM II Analise e Desenvolvimento de Sistema Coworking - UNIP

Linguagens de Programação

FMU

Programação

218

Programação

Linguagens de Programação

FMU

Exercício Phyton

11

Exercício Phyton

Linguagens de Programação

FMU

Texto de pré-visualização

UNIVERSIDADE FEDERAL DO PARANÁ METODOLOGIA DE SEGMENTAÇÃO DE CLIENTES B2B ORIENTADA A LUCRATIVIDADE E OS EFEITOS NO LIFE TIME VALUE LTV CURITIBA 2025 METODOLOGIA DE SEGMENTAÇÃO DE CLIENTES B2B ORIENTADA A LUCRATIVIDADE E OS EFEITOS DO LIFE TIME VALUE LVT Dissertação de Mestrado apresentada ao Programa de PósGraduação em Gestão de Organizações Liderança e Decisão PPGOLD Universidade Federal do Paraná como requisito parcial à obtenção do título de Mestre Orientador Cassius Tadeu Scarpin CURITIBA 2025 Ficha Catalográfica METODOLOGIA DE SEGMENTAÇÃO DE CLIENTES B2B ORIENTADA A LUCRATIVIDADE E OS EFEITOS DO LIFE TIME VALUE LVT Dissertação de Mestrado apresentada ao Programa de PósGraduação em Gestão de Organizações Liderança e Decisão PPGOLD Universidade Federal do Paraná como requisito parcial à obtenção do título de Mestre Aprovado em de de 2025 Prof Cassius Tadeu Scarpin Orientador Professor do Programa de PósGraduação da Universidade Federal do Paraná Prof Universidade Prof Universidade 2025 Aos pilares da minha vida minhas queridas filhas e esposo Manoella Martinna e Romério cujo amor e alegria diários são minha fonte de inspiração e força ao meu orientador professor Cassius pelo encorajamento nos momentos difíceis e aos amigos acolhedores que agiram em cada momento de dúvida e celebração Cada um de vocês foi peça chave nessa conquista pela importância do amor do apoio e da amizade Dedico esta dissertação a vocês com toda a minha gratidão AGRADECIMENTOS Em geral aquele que ocupa primeiro o campo de batalha e aguarda seu inimigo está à vontade quem chega depois à cena e se apressa a lutar está cansado Sun Tzu Mintzberg et al 2010 RESUMO As organizações atuando em mercados cada vez mais limitados ou saturados enfrentam constantemente o desafio de fidelizar seus clientes e têm um processo de venda complexo para a progressão do negócio seja na expansão das frentes já existentes ou na criação de novas Essas organizações buscam impedir que seus clientes existentes se tornem inativos enquanto orientam na priorização de novas empresas a serem prospectadas alocando recursos em seus orçamentos para sustentar o portfólio e atender a requisitos estratégicos Esta pesquisa visa realizar um estudo analítico sobre a importância da metodologia de segmentação de clientes orientada à lucratividade e seus efeitos no Lifetime Value LTV Tratase da aplicação da descoberta de conhecimento em bancos de dados KDD Knowledge Discovery in Databases Como limitações o estudo contemplará o cenário de empresas do segmento financeiro nacional dependentes do fator de inadimplência e atuando no modelo B2B Business to Business utilizando informações públicas relacionadas ao cadastro de pessoa jurídica Por meio dos resultados obtidos verificase que a metodologia segmentada de clientes orientada ao LTV contribui para as inferências sobre investimentos estruturais na formação das metas de conversão dos negócios no tempo de vida dos clientes e na definição de projetos comerciais como expansão ou abertura de novas frentes de campanhas de marketing Isso auxilia na compreensão dos limites das expectativas sobre o grau de assertividade das projeções O método portanto abre proposições relacionadas à melhoria nas variáveis CAC Customer Acquisition Cost e Churn que compõem a formulação matemática do LTV Diante disso este trabalho propõe uma metodologia de segmentação de clientes baseada em variáveis de lucratividade com o uso de algoritmos de aprendizado de máquina visando aumentar a assertividade da priorização comercial e apoiar a tomada de decisão estratégica com base em dados Para que se obtenha um maior resultado em retenção de clientes alocação eficiente de recursos e previsão do comportamento futuro dos leads e clientes atuais a proposta busca integrar técnicas de clusterização análise fatorial e modelos preditivos alinhadas ao processo de KDD possibilitando inferências mais precisas e personalizadas sobre o valor de cada cliente ao longo do tempo Palavraschave Estratégia Comercial Inteligência de Mercado Lucratividade eou Indicadores de Lucratividade Filtros de Colaborativos Cluster e Negócios ABSTRACT Organizations operating in increasingly constrained or saturated markets constantly face the challenge of retaining their customers and managing a complex sales process necessary for business progression whether by expanding existing fronts or creating new ones These organizations strive to prevent current customers from becoming inactive while prioritizing new prospects allocating budget resources to sustain the portfolio and meet strategic requirements This research aims to conduct an analytical study on the importance of profitabilityoriented customer segmentation methodology and its effects on Lifetime Value LTV It involves the application of Knowledge Discovery in Databases KDD As a limitation the study will focus on companies in the national financial sector that are dependent on default rates and operate under the B2B Business to Business model using publicly available data related to corporate registration The results show that a segmented customer approach oriented toward LTV contributes to inferences about structural investments setting business conversion goals determining customer lifetime and defining commercial projects such as expansion or the launch of new marketing campaigns This helps to better understand the limitations of expectations regarding the accuracy of projections Therefore the method introduces propositions aimed at improving variables such as CAC Customer Acquisition Cost and Churn which are part of the mathematical formulation of LTV In this context the study proposes a customer segmentation methodology based on profitability variables using machine learning algorithms to increase the accuracy of commercial prioritization and support data driven strategic decisionmaking To achieve better results in customer retention efficient resource allocation and forecasting future behavior of leads and current clients the proposed approach integrates clustering techniques factor analysis and predictive models aligned with the KDD process enabling more precise and personalized insights into each customers lifetime value Keywords Commercial Strategy Market Intelligence Profitability andor Profitability Indicators Collaborative Filtering Clustering Business LISTA DE SIGLAS E TERMOS EM INGLÊS SIGLA Descrição Explicação ACO Ant Colony Optimization é um algoritmo de otimização baseado na forma como as formigas encontram os caminhos mais curtos entre seu ninho e uma fonte de alimento AG Algoritmos Genéricos são métodos de otimização inspirados nos princípios da evolução natural e genética Eles são usados para encontrar soluções aproximadas para problemas de otimização complexos que podem ser difíceis de resolver por métodos convencionais ANOVA Analysis of Variance é uma técnica estatística utilizada para comparar as médias de três ou mais segmentos determinando diferenças estatisticamente significativas entre essas médias AntMiner é um algoritmo de mineração de dados inspirado no comportamento das colônias de formigas especificamente projetado para a tarefa de descoberta de regras de classificação em grandes conjuntos de dados Arrays são estruturas que guardam uma coleção de elementos de dados geralmente do mesmo tipo em uma sequência de memória Attention Models são mecanismos utilizados em redes neurais que permitem que a rede preste atenção a partes específicas de uma entrada durante a previsão ou a execução de uma tarefa B2B Businessto Business referese a transações comerciais realizadas entre empresas B2C Businessto consumer referese a um modelo de negócios no qual as empresas vendem produtos ou serviços diretamente aos consumidores finais Backbone é um termo usado em redes de computadores para se referir à principal infraestrutura que interliga diferentes redes locais e segmentos de rede proporcionando conectividade e transporte de dados de alta velocidade entre essas redes Big Data referese a empresas do segmento de tecnologia que agrupam e correlacionam dados disponíveis por instituições públicas ou privadas para uso empresarial Bin é uma categoria ou intervalo específico dentro do qual valores contínuos são agrupados como parte do processo de binning Binning é uma técnica de préprocessamento de dados que agrupa valores contínuos em um número menor de categorias ou bins baseandose em critérios como largura de intervalo ou frequência de observações para suavizar variações nos dados e facilitar análises posteriores Boxplot também conhecido como diagrama de caixa ou gráfico de caixa e bigodes é uma representação gráfica que resume a distribuição de um conjunto de dados numéricos através de cinco números principais o valor mínimo o primeiro quartil Q1 a mediana Q2 o terceiro quartil Q3 e o valor máximo CAC Customer Acquisition Cost referese ao custo total incorrido por uma empresa para adquirir um novo cliente CDAF CrossDomain Adaptive Framework é um modelo ou estrutura adaptativa que facilita o aprendizado e a transferência de conhecimento entre diferentes domínios CEO Chief Executive Officer o cargo de maior autoridade dentro de uma empresa ou organização Churn ou taxa de cancelamento referese à proporção de clientes ou empresas que deixam de usar os serviços ou produtos da empresa Cliente indivíduo ou organização que já realizou uma compra ou utiliza os serviços da empresa e por isso já contribuem diretamente para o lucro da empresa Cluster referese a um grupo de objetos ou pontos de dados que são semelhantes entre si e são diferentes dos objetos em outros grupos Clusterização ou clustering é um método de análise de dados utilizado para agrupar um conjunto de objetos de tal forma que objetos semelhantes sejam colocados no mesmo grupo ou cluster CRM Customer Relationship Management é a gestão empresarial integrada para analisar interações com clientes e dados ao longo do ciclo de vida dele CSV CommaSeparated Values é um modelo de arquivo utilizado para guardar dados em formato de texto simples DataFrames é uma estrutura de dados bidimensional similar a uma tabela utilizada para armazenar dados em formato de linhas e colunas É uma das principais estruturas de dados usadas em bibliotecas de análise de dados como Pandas em Python Data Mining ou mineração de dados o processo de descobrir padrões tendências e informações úteis em grandes conjuntos de dados utilizando técnicas estatísticas matemáticas de inteligência artificial e de aprendizado de máquina DBSCAN DensityBased Spatial Clustering of Applications with Noise é um algoritmo de clusterização popular usado na mineração de dados e aprendizado de máquina Ao contrário de métodos de clusterização baseados em centroides como k means o DBSCAN é particularmente eficaz para identificar clusters de formas arbitrárias e para lidar com outliers Decision Tree é um algoritmo de aprendizado supervisionado amplamente utilizado tanto para problemas de classificação quanto de regressão Ela representa um modelo preditivo que mapeia observações sobre um item para conclusões sobre o valor alvo do item DNN Deep Neural Network ou Rede Neural Profunda é uma rede neural artificial que possui múltiplas camadas desde a camada de entrada e a camada de saída Elbow ou método do cotovelo é uma técnica heurística utilizada para determinar o número ótimo de clusters ou agrupamentos em um algoritmo de clustering como o Kmeans encontrando um ponto de inflexão o cotovelo no gráfico FeatureBased referese a uma abordagem no campo do aprendizado de máquina e mineração de dados onde o foco está nas características dos dados F2P Freetoplay referese a um modelo de negócios usado principalmente na indústria de jogos eletrônicos onde os jogadores podem acessar o jogo gratuitamente GINI coeficiente de também conhecido simplesmente como Gini é uma medida de dispersão ou desigualdade frequentemente usada em economia para quantificar a desigualdade de renda ou riqueza dentro de uma população Heatmap mapa de calor é uma representação gráfica de dados onde valores individuais contidos em uma matriz são representados por cores Heurística estratégia metodológica que seleciona e utiliza variáveis com base na experiência intuição ou práticas comprovadas Higienização Processo que envolve a remoção de duplicatas correção de erros e atualização dos dados para assegurar a precisão e a utilidade das informações evitando erros e inconsistências Insight compreensão profunda e estratégica orientando decisões de alto impacto que direcionam a empresa para o crescimento e sustentabilidade a longo prazo Interquartil é uma medida estatística da dispersão ou variabilidade de um conjunto de dados É a diferença entre o 3º quartil Q3 e o 1º quartil Q1 de um total de informações representando a faixa dos 50 centrais das informações IQR Interquartil range também conhecido como amplitude interquartil é uma medida de dispersão estatística que descreve a extensão dos valores centrais de um conjunto de dados Especificamente o IQR é a diferença entre o terceiro quartil Q3 e o primeiro quartil Q1 e representa a faixa onde se encontra os 50 centrais dos dados KDD Knowledge Discovery in Databases processo de identificar padrões atuais e novos potencialmente úteis em um grande conjunto de dados Kmeans é um algoritmo de aprendizado de máquina não supervisionado usado para resolver problemas de clustering ou agrupamentos de objetos Lead é um potencial cliente indivíduo ou empresa que demonstra interesse nos produtos ou serviços da empresa mas ainda não realizou uma compra e portanto representam potenciais fontes de lucro no futuro Lifespan Customer Lifecycle ou ciclo de vida do cliente referese ao período total durante o qual um cliente permanece ativo e gera receita para uma empresa Logit multinomial é um modelo estatístico usado para predição e classificação em situações na qual a variável dependente é categorizada com mais de duas categorias LTR Lifetime Revenue é uma métrica usada para quantificar a receita total que um cliente gera durante todo o período em que mantém um relacionamento com uma empresa LTV Lifetime Value é um conceito de marketing usado para estimar o valor total que uma empresa pode esperar receber de um cliente ao longo de todo o seu relacionamento com essa empresa Marketing conjunto de práticas e processos utilizados por organizações para promover vender produtos ou serviços Matplotlib é uma biblioteca de visualização de dados em Python que permite criar gráficos estáticos e interativos Missingno é uma biblioteca em Python projetada para visualizar e diagnosticar valores ausentes em conjuntos de dados NumPy Numerical Python é uma biblioteca de código aberto para a linguagem de programação Python que fornece para suporte para arrays e matrizes multidimensionais juntamente com uma coleção de funções matemáticas de alto nível para operar esses arrays Outlier é um ponto de dados que difere significativamente dos outros pontos de um conjunto de dados geralmente a maior Pandas é uma biblioteca para análise e manipulação de dados em Python Pipeline é um termo amplamente utilizado em tecnologia e ciência de dados que se refere a uma série de etapas sequenciais pelas quais os dados ou tarefas passam desde o início até a conclusão PnP PlugandPlay é um termo usado para descrever dispositivos de hardware ou software que são projetados para funcionar com um mínimo de configuração e intervenção do usuário Prospects clientes ou empresas que tem potencial para se tornarem clientes da empresa no futuro Python é uma linguagem de programação de alto nível amplamente utilizada que oferece uma ampla biblioteca padrão facilitando a extensão de sua funcionalidade para praticamente qualquer tarefa Recall também conhecido como sensibilidade ou taxa de verdadeiros positivos é uma métrica de desempenho utilizada na avaliação de modelos de classificação Ele mede a capacidade do modelo de identificar corretamente todas as ocorrências positivas verdadeiros positivos dentro do conjunto de dados RF Randon Forest é um algoritmo de aprendizado em conjunto usado tanto para classificação quanto para regressão RNA Redes Neurais são algoritmos de aprendizado de máquina Artificiais com funcionamento similar ao cérebro humano São compostas por unidades interligadas chamadas neurônios artificiais organizadas em camadas As RNAs são usadas para uma variedade de tarefas incluindo classificação regressão e reconhecimento de padrões RNN Recurrent Neural Network ou rede neural recorrente é um tipo de rede neural artificial projetada para reconhecer padrões em sequências de dados como séries temporais texto ou áudio Scikitlearn é uma biblioteca de código aberto para aprendizado de máquina em Python Ela oferece uma vasta gama de ferramentas eficientes e fáceis de usar para mineração de dados e análise de dados Seaborn é uma biblioteca de visualização de dados em Python com base no Matplotlib Ela fornece interface de alto nível para desenho de gráficos estatísticos informativos Seq2Seq Sequenceto Sequence Learning é uma abordagem de aprendizado profundo que mapea uma sequência de entrada para uma sequência de saída frequentemente utilizada em tarefas onde a saída não tem a mesma duração que a entrada Silhouette é uma técnica de avaliação de clusterização que mede a qualidade de uma segmentação de dados Ela quantifica o quão bem cada ponto de dados foi agrupado comparando a coesão dentro do cluster e a separação entre clusters SQL Structured Query Language é uma linguagem de programação útil para estudos das informações em bancos de dados relacionais SSE Sum of Squared Errors Soma dos Erros Quadráticos Subplot é um termo utilizado em visualização de dados para se referir a múltiplos gráficos ou figuras exibidas em uma única tela ou página organizados em uma grade Testes T são testes estatísticos utilizados para comparar as médias de dois grupos e determinar se as diferenças observadas entre as médias são estatisticamente significativas TIC Tecnologia da Informação e Comunicação referemse ao conjunto de recursos tecnológicos e de comunicação utilizados para a criação armazenamento processamento transmissão e disseminação de informações ZILN ZeroInflated Lognormal é um modelo estatístico utilizado para lidar com dados que possuem uma alta proporção de zeros juntamente com valores contínuos que seguem uma distribuição lognormal ÍNDICE DE FIGURAS Figura 1 Uma visão geral das etapas que compõem o processo KDD23 Figura 2 Boxplot32 Figura 3 Exemplificação Gráfica Elbow41 Figura 4 Proposta de segmentação de clientes baseado no valor ao longo da sua vida e na sua lealdade à marca67 SUMÁRIO 1 INTRODUÇÃO 11 Descrição do Problema 12 Objetivos 121 Objetivo Geral 122 Objetivos Específicos 13 Justificativa do Trabalho 14 Limitações do Trabalho 15 Estrutura do Trabalho 2 REVISÃO DA LITERATURA 21 Processo de Knowledge Discovery in Databases KDD 211 Tratamento de Dados 212 Transformação de Dados 213 Data Mining para Classificação 22 Segmentação de Clientes 221 Pureza e Uniformidade dos Segmentos 222 Diferenciação entre Segmentos 223 Matriz de Confusão 224 Testes de Hipóteses 225 Análise de Correlação entre Segmentos e Variáveis de Negócio 226 Interpretação dos Resultados e Indicadores 227 CAC e LTV 23 Trabalhos Correlatos 3 METODOLOGIA 31 Tipo de Pesquisa 32 Procedimentos Metodológicos 33 Ferramentas e Softwares 34 Limitações Metodológicas 4 ANÁLISE DOS RESULTADOS 5 DISCUSSÕES E CONSIDERAÇÕES FINAIS CONCLUSÃO REFERÊNCIAS ANEXOS Obs Em andamento o trabalho está ganhando forma obrigado 1 INTRODUÇÃO No atual cenário corporativo empresas inseridas em mercados saturados enfrentam desafios significativos para manter sua base de clientes e expandir suas operações comerciais Nesse contexto é importante destacar que tais organizações buscam evitar a inatividade de seus clientes atuais e para isso alocam recursos em seus orçamentos com o intuito de sustentar o portfólio e viabilizar campanhas e metas estratégicas orientadas por objetivos heurísticos do planejamento de longo prazo É nesse ambiente competitivo que surgem metodologias e técnicas com o propósito de auxiliar gestores na identificação das reais necessidades de seus clientes e potenciais clientes O termo prospects ou potenciais clientes referese a empresas ou indivíduos que ainda não realizaram uma compra mas que apresentam perfil compatível com o públicoalvo da organização A partir daqui este termo em inglês será mantido no decorrer do texto por ser amplamente utilizado no meio empresarial Essas técnicas visam descobrir padrões comportamentais e desenvolver ofertas direcionadas que atendam simultaneamente às expectativas do cliente e aos objetivos de lucratividade da empresa Entre essas ferramentas destacase o LTV Lifetime Value ou valor do tempo de vida do cliente Segundo Olnén 2022 o LTV corresponde ao valor que um cliente gera para a empresa ao longo de seu relacionamento sendo uma métrica estratégica capaz de monitorar e mensurar o sucesso dos negócios De acordo com Wu et al 2023 a aplicação do LTV permite aumentar a margem de lucro ao orientar a criação de serviços personalizados e ações proativas que contribuem para a retenção do cliente além de possibilitar o gerenciamento de perfis com baixa geração de receita e o planejamento de oportunidades futuras com base em seu valor acumulado Dessa forma esta pesquisa se propõe a realizar um estudo baseado em dados públicos de mercado obtidos a partir de bases de dados amplas comumente referidas como Big Data A proposta metodológica foi desenvolvida pela autora com base em variáveis selecionadas heurística e estrategicamente compatíveis com o produto de interesse geralmente estruturado sob a forma de campanhas de 17 marketing ou perfis definidos do públicoalvo O objetivo é evidenciar a relevância da segmentação de leads potenciais clientes isto é a priorização estratégica da prospecção e do gerenciamento diário da área comercial com foco em rentabilidade Os sistemas de recomendação por sua vez representam uma frente essencial para o incremento das vendas e para o refinamento das estratégias de marketing promovendo tanto a atração quanto a fidelização de clientes A filtragem colaborativa uma das técnicas mais utilizadas nesse contexto vem sendo potencializada por abordagens que integram diferentes métodos analíticos Dentre essas abordagens este estudo propõe a integração entre o processo de Descoberta de Conhecimento em Bancos de Dados Knowledge Discovery in Databases KDD e os sistemas colaborativos de recomendação Ao explorar e interpretar grandes volumes de dados o KDD permite a geração de insights mais profundos e personalizados impactando positivamente na qualidade e precisão das recomendações Conforme Fayyad et al 1996 o KDD assume papel estratégico ao transformar a forma como os dados são utilizados para gerar conhecimento principalmente quando aplicados em sistemas voltados ao apoio à decisão Os autores ressaltam que o KDD contribui de maneira decisiva para a descoberta de padrões e informações relevantes reforçando a capacidade das organizações de tomar decisões com base em dados robustos e bem estruturados 11 DESCRIÇÃO DO PROBLEMA O processo de tomada de decisão do planejamento comercial baseiase em duas etapas Uma etapa tática e outra estratégica Na etapa tática a racionalidade predomina sobre a heurística com indicadores e cálculos numéricos predominando as análises não descartando tímidas inferências devido a acontecimentos ou exceções causadas por políticas ou ocorrências de outliers ou seja ocorrências destoantes que são relevantes ao planejamento Na etapa estratégica diferente da etapa tática os gestores de alto escalão contribuem em maior parte com inferências da sua experiência seu conhecimento do mercado e das percepções comumente denominadas insights necessários para o crescimento planejado do negócio 17 Desta forma a presente pesquisa está relacionada principalmente à etapa tática Visa gerar uma metodologia que define quais os leads e clientes do universo mapeado previamente necessitam de priorização de ações de relacionamento ou prospecção Em decorrência da metodologia proposta a ser apresentada no decorrer do trabalho as contribuições da aplicação de um método de segmentação de clientes com adoção de variáveis de lucratividade para alavancagem da estratégia comercial tornase uma possibilidade real e prática para aumentar a produtividade da área comercial Previsões fundamentadas em indicadores de lucratividade como o LTV não apenas ajudam o planejamento financeiro da empresa mas também contribuem para melhores decisões de marketing e orientam o gerenciamento de relacionamento com o cliente CRM 12 OBJETIVOS 121 Objetivo Geral Desenvolver uma metodologia de segmentação de clientes que permita a identificação de características específicas de cada grupo formado bem como a definição de variáveis relacionadas à lucratividade com foco na geração de inferências aplicáveis ao indicador Lifetime Value LTV no contexto da operação comercial 122 Objetivos Específicos Serão explorados os seguintes objetivos específicos Identificar a partir da literatura especializada os principais critérios utilizados na segmentação de leads e clientes no ambiente B2B Analisar o conceito de Lifetime Value LTV e sua utilização como métrica orientadora em estratégias de segmentação de clientes Investigar modelos teóricos de pontuação de leads com base em variáveis relacionadas à rentabilidade e ao ciclo de vida do cliente 19 Revisar os fundamentos do processo de descoberta de conhecimento em bases de dados KDD e suas aplicações na organização e interpretação de dados Examinar à luz de estudos existentes a influência de percepções gerenciais e experiências de mercado na tomada de decisão estratégica em contextos comerciai 13 JUSTIFICATIVA DO TRABALHO A presente dissertação justificase pelo interesse em aprofundar a discussão acadêmica sobre metodologias de segmentação de clientes no contexto B2B com base em métricas de lucratividade como o Lifetime Value LTV A segmentação orientada por valor tem sido destacada em estudos recentes como uma abordagem capaz de subsidiar decisões estratégicas e operacionais na área comercial especialmente em setores que dependem da alocação racional de recursos e da gestão eficiente de portfólios de clientes Wu et al 2023 Wang et al 2019 A análise da literatura aponta que as práticas de segmentação com apoio de algoritmos e modelos preditivos vêm sendo utilizadas como suporte técnico para processos decisórios especialmente quando alinhadas ao processo de descoberta de conhecimento em bases de dados KDD Knowledge Discovery in Databases conforme discutido por Fayyad et al 1996 e Han et al 2011 Além disso há interesse em investigar como variáveis como CAC Customer Acquisition Cost e churn impactam a modelagem do LTV e influenciam a priorização de ações comerciais Nesse contexto a pesquisa propõe a estruturação teórica de uma metodologia que considere a integração entre dados objetivos etapa tática e percepções gerenciais etapa estratégica conforme referenciado por autores como Kanchanapoom e Chongwatpol 2022 Tratase de um estudo de caráter exploratório baseado em fontes secundárias e fundamentado em revisão de literatura especializada que busca contribuir para o debate metodológico sobre segmentação de clientes orientada à rentabilidade no modelo B2B 19 14 LIMITAÇÕES DO TRABALHO Este estudo apresenta algumas limitações que devem ser consideradas no delineamento da proposta metodológica e na análise de seus resultados São elas Amostra de dados secundários a pesquisa se baseia em dados disponíveis publicamente que podem não refletir integralmente as especificidades de determinados setores ou perfis de clientes o que pode restringir a abrangência das conclusões Variabilidade das variáveis utilizadas na segmentação a escolha de variáveis como faturamento número de funcionários ou lucratividade representa um recorte analítico podendo deixar de contemplar outros aspectos relevantes no contexto da segmentação de clientes Complexidade dos modelos analisados embora não se realizem testes empíricos a compreensão de técnicas como clusterização e algoritmos de classificação exige domínio conceitual e técnico o que pode representar uma barreira para a aplicabilidade por profissionais sem formação especializada Influência de fatores externos as dinâmicas de mercado estão sujeitas a variáveis macroeconômicas e institucionais que não são controladas pela pesquisa e que podem interferir na efetividade de modelos baseados em dados históricos Subjetividade dos insights gerenciais a etapa estratégica da segmentação frequentemente pautada por experiências e percepções dos gestores pode variar significativamente entre organizações dificultando a padronização da abordagem proposta Resistência à adoção de novos métodos a introdução de ferramentas baseadas em ciência de dados e aprendizado de máquina no planejamento comercial pode enfrentar obstáculos estruturais ou culturais nas organizações 21 Validade temporal dos dados a rapidez com que se alteram as condições comerciais e os perfis de consumo pode impactar a durabilidade e a aplicabilidade das análises especialmente quando baseadas em dados estáticos ou desatualizados 15 ESTRUTURA DO TRABALHO CAP 1 2 3 4 5 CONCLUSÃO REFERENCIAS ANEXOS 21 2REVISÃO DA LITERATURA 21 PROCESSO DE KNOLEDGE DISCOVERY IN DATABASE KDD A exploração de conhecimento em bancos de dados KDD Knowledge Discovery in Databases é um processo que se dedica à extração de informações valiosas e conhecimento a partir de grandes conjuntos de dados Esse processo abrange diversas etapas críticas desde a seleção e preparação inicial dos dados até a mineração efetiva dos dados em si e a interpretação dos resultados obtidos Han et al 2011 destacam que o processo de KDD envolve a limpeza integração seleção e transformação dos dados antes da aplicação de técnicas de mineração para extrair padrões significativos A relevância do KDD tem crescido juntamente com o aumento na quantidade de dados produzidos e armazenados o que impulsiona a demanda por métodos eficazes para embasar decisões em dados e gerar insights estratégicos No contexto do KDD a precisão dos dados é fundamental Dados imprecisos incompletos ou irrelevantes podem levar a conclusões equivocadas e prejudicar a utilidade dos insights descobertos Assim sendo um componente vital do processo de KDD consiste na preparação preliminar dos dados incluindo atividades como limpeza normalização e transformação HAN et al 2011 Tais técnicas contribuem para assegurar que os dados utilizados na mineração sejam tão precisos e completos quanto possível otimizando dessa forma a qualidade das informações derivadas Segundo Han et al 2011 a qualidade dos dados é crucial para o sucesso da mineração de dados pois a eficácia dos algoritmos de mineração depende diretamente da qualidade dos dados que recebem como entrada Um exemplo prático da aplicação das técnicas de KDD pode ser observado no estudo realizado por Ekstrand et al 2010 que investiga os sistemas colaborativos de recomendação Os autores abordam estratégias de filtragem colaborativa que são fundamentais para compreender as escolhas dos utilizadores e oferecer sugestões personalizadas Este estudo ilustra como o KDD pode ser empregado para aprimorar a exatidão e a pertinência das recomendações em 23 plataformas interativas algo essencial para a experiência do utilizador e para garantia da qualidade da análise Fayyad et al 1996 dizem que o KDD é um campo interdisciplinar focado na extração de informações úteis de grandes conjuntos de dados Os autores detalham que o processo de KDD pode envolver várias etapas incluindo seleção de dados limpeza enriquecimento e transformação de dados além da aplicação de algoritmos de mineração de dados para encontrar padrões significativos Destacam também que a crescente importância do KDD se deve ao aumento do volume de dados disponíveis e portanto é imprescindível a crescente necessidade de métodos eficazes para análise desses dados A compreensão do processo de KDD não apenas revela a complexidade envolvida na manipulação de grandes volumes de dados mas também sublinha a necessidade de uma abordagem estruturada para extrair conhecimento valioso desses dados Como ilustrado na Figura 01 o processo de KDD é composto por uma série de etapas interconectadas que começam com a seleção de dados e seguem por meio da seleção tratamento de dados e transformação deles Essas etapas preparatórias são cruciais para assegurar a qualidade dos dados antes de aplicar algoritmos de mineração de dados A Figura 01 destaca a natureza iterativa do processo KDD mostrando como cada etapa contribui para refinar os dados até que padrões significativos possam ser descobertos e verificados A visualização oferecida pela figura não só esclarece os componentes individuais do processo mas também demonstra como eles estão interligados reforçando a ideia de que o sucesso na mineração de dados depende da sua meticulosa preparação e análise Este fluxo estruturado é essencial para enfrentar o desafio imposto pelo crescente volume de dados Por meio de uma análise cuidadosa as organizações podem transformar uma grande quantidade de dados brutos em insights relevantes e aplicáveis que são críticos para a tomada de decisões informadas e estratégicas Portanto a figura 01 não apenas serve como um mapa visual das etapas do KDD mas também como uma ferramenta fundamental para entender a interdependência dessas etapas no contexto da descoberta de conhecimento em bases de dados Figura 1 Uma visão geral das etapas que compõem o processo KDD 23 Fonte Fayyad et al 1996 211 Tratamento de Dados A etapa de tratamento de dados no processo de exploração de conhecimento em bancos de dados KDD desempenha um papel importante garantindo a confiabilidade e usabilidade dos dados para análises subsequentes Durante essa fase é essencial realizar a identíficação de ruídos resolver inconsistências e preparar os dados adequadamente para permitir que os algoritmos de mineração funcionem com eficácia Segundo Cheng e Chen 2009 o tratamento e o pré processamento são elementoschave para o êxito dos algoritmos de agrupamento utilizados em sistemas de CRM 2111 Eliminando Ruídos e Inconsistências Remover o excesso de informações ruídos e inconsistências representa uma etapa fundamental na preparação dos dados para o processo de Knowledge Discovery in Databases KDD uma vez que dados imprecisos ou com baixa qualidade podem comprometer significativamente os resultados obtidos nas etapas subsequentes de mineração e análise A presença de valores duplicados erros de entrada lacunas ou informações incoerentes tende a distorcer os padrões e correlações descobertos levando a decisões equivocadas e interpretações falhas De acordo com Han Kamber e Pei 2011 o préprocessamento dos dados é composto por diversas técnicas incluindo o preenchimento de valores ausentes a 25 suavização de ruídos a correção de inconsistências a detecção e remoção de outliers além da padronização e transformação de atributos Essas etapas são essenciais para garantir a integridade a completude e a utilidade do conjunto de dados antes de sua exploração analítica Entre os métodos mais comuns de suavização destacamse os filtros de média e mediana que substituem valores individuais por médias ou medianas calculadas a partir de seus vizinhos mais próximos reduzindo assim a variabilidade aleatória Já a suavização por binning agrupa os dados em intervalos bins e ajusta os valores com base em estatísticas internas de cada intervalo promovendo homogeneidade local A suavização por regressão por sua vez ajusta uma função matemática linear ou não linear aos dados permitindo a identificação e atenuação de tendências ou flutuações acentuadas A detecção de outliers é outra etapa crítica pois esses valores atípicos podem interferir negativamente nos resultados dos modelos estatísticos e algoritmos de aprendizado de máquina Métodos estatísticos convencionais baseados em medidas de tendência central e dispersão como média e desvio padrão são frequentemente utilizados para identificar e remover esses pontos anômalos Contudo técnicas mais avançadas como o algoritmo DBSCAN DensityBased Spatial Clustering of Applications with Noise proposto por Ester et al 1996 têm se mostrado eficazes para detectar outliers em grandes volumes de dados multidimensionais pois consideram a densidade local de pontos ao invés de simples critérios globais Além disso inconsistências nos dados muitas vezes resultantes da fusão de diferentes bases de dados erros de digitação ou atualizações mal conduzidas devem ser tratadas por meio de inspeções manuais validações cruzadas e aplicação de regras de integridade baseadas no domínio dos dados Isso inclui a verificação de chaves primárias integridade referencial formatos esperados e padrões semânticos consistentes O uso de ferramentas automatizadas de data cleaning também tem ganhado espaço especialmente em contextos que envolvem grandes volumes de dados e necessidade de escalabilidade Complementando esse panorama Do e Batzoglou 2008 em estudos voltados para bioinformática destacam a importância da normalização e padronização como elementos fundamentais para garantir a comparabilidade entre 25 conjuntos de dados heterogêneos Essas técnicas ajustam os dados para uma escala comum prevenindo que atributos com magnitudes diferentes dominem o processo de mineração No campo dos sistemas de recomendação Ekstrand Riedl e Konstan 2010 demonstram como abordagens sofisticadas de filtragem de dados incluindo técnicas baseadas em conteúdo e colaborativas dependem fortemente da qualidade e coerência dos dados de entrada Uma base mal preparada pode gerar recomendações irrelevantes ou enviesadas prejudicando a experiência do usuário e reduzindo a eficácia dos sistemas inteligentes Assim a manipulação criteriosa e sistemática das informações tornase essencial não apenas para garantir a acurácia dos modelos e interpretações derivadas da mineração de dados mas também para assegurar a reprodutibilidade dos resultados e sua aplicabilidade em contextos reais A qualidade dos dados está diretamente relacionada à capacidade da organização de extrair conhecimento confiável relevante e acionável contribuindo de forma decisiva para a orientação estratégica e a geração de vantagem competitiva sustentada Em síntese a preparação adequada dos dados não é uma etapa acessória mas sim uma condição sine qua non para o sucesso de qualquer projeto baseado em análise de dados No contexto corporativo essa etapa representa a base sobre a qual serão construídas as estratégias analíticas e preditivas justificando o investimento em processos e ferramentas que garantam a excelência na gestão da informação 2112 Tratando Valores Ausentes O correto tratamento de dados ausentes é uma etapa essencial no processo de preparação de dados para o Knowledge Discovery in Databases KDD pois assegura a qualidade consistência e integridade do conjunto de dados Dados faltantes se não tratados adequadamente podem comprometer a validade das análises estatísticas distorcer resultados e consequentemente impactar negativamente a eficácia dos modelos de mineração de dados Assim é fundamental adotar abordagens criteriosas e fundamentadas para a identificação 27 análise e tratamento dessas lacunas garantindo que as inferências obtidas sejam confiáveis e representativas A primeira etapa crítica consiste na identificação da existência e da distribuição dos valores ausentes no banco de dados Isso envolve a quantificação do volume de dados faltantes por variável e a localização exata de onde ocorrem essas ausências Essa análise inicial fornece uma visão geral da extensão do problema e auxilia na definição de estratégias apropriadas de imputação ou eliminação de registros quando necessário Posteriormente tornase imprescindível realizar uma análise do padrão de ocorrência dos dados ausentes Essa análise visa determinar se os dados estão ausentes completamente ao acaso Missing Completely at Random MCAR ausentes ao acaso Missing at Random MAR ou ausentes de forma não aleatória Not Missing at Random NMAR A identificação desse padrão é decisiva para a seleção da técnica de tratamento mais eficaz Por exemplo se os dados estão ausentes de forma sistemática isso pode refletir vieses no processo de coleta falhas de instrumentação ou ainda uma relação estrutural com outras variáveis do conjunto de dados Riedl e Konstan 2011 ao analisarem os impactos dos valores ausentes em sistemas de recomendação ressaltam que a ausência de dados pode afetar diretamente a capacidade de personalização desses sistemas Os autores destacam que dados incompletos reduzem a acurácia das recomendações além de comprometer a robustez e a equidade dos algoritmos especialmente em abordagens colaborativas que dependem fortemente da completude das interações entre usuários e itens Entre as estratégias mais empregadas para lidar com dados ausentes destacamse Imputação por média mediana ou moda utilizada em situações de baixa complexidade onde os valores ausentes são substituídos por estatísticas simples de tendência central Imputação por regressão quando há uma relação identificável entre a variável ausente e outras variáveis do conjunto é possível estimar os valores ausentes com base em modelos de regressão linear ou múltipla 27 Técnicas de aprendizado de máquina como kNearest Neighbors k NN e redes neurais também são aplicadas para imputar valores com base em padrões complexos de similaridade ou aprendizado supervisionado Eliminação de registros ou variáveis adotada quando a quantidade de dados ausentes é suficientemente pequena para não comprometer a integridade do conjunto ou quando a variável não possui relevância significativa para o objetivo do modelo Modelos múltiplos de imputação como o Multiple Imputation by Chained Equations MICE considerados mais sofisticados permitem a geração de múltiplos conjuntos imputados incorporando a variabilidade e incerteza associadas ao processo A escolha da técnica de tratamento mais adequada deve considerar não apenas a proporção de dados faltantes mas também o contexto analítico a estrutura das variáveis e o impacto potencial sobre os resultados Um tratamento inadequado pode introduzir viés mascarar relações reais ou gerar interpretações enganosas Ademais o tratamento de dados ausentes deve ser documentado de forma transparente para garantir a rastreabilidade e reprodutibilidade dos resultados Em ambientes corporativos onde decisões estratégicas são tomadas com base em análises preditivas negligenciar essa etapa pode acarretar prejuízos operacionais e financeiros significativos Portanto a gestão criteriosa de dados faltantes é uma prática indispensável no ciclo de vida da ciência de dados Quando bem executada ela assegura a fidelidade das análises potencializa a acurácia dos modelos e contribui para a geração de conhecimento de alto valor agregado alinhado às metas organizacionais e à realidade dos negócios 2113 Normalização dos Dados A normalização dos dados assegura que os dados estejam em um formato apropriado para análise e modelagem Normalizar os dados ajuda a padronizar os valores dos atributos garantindo que eles contribuam de maneira equitativa nas 29 análises e modelos subsequentes Este processo serve para melhorar a performance de algoritmos de mineração de dados reduzindo a influência de características com valores numericamente mais amplos em algoritmos sensíveis à escala dos dados como a distância euclidiana utilizada em métodos de clusterização e classificação Entre as motivações para a normalização incluemse a eliminação de unidades diferentes o que é crucial quando variáveis são medidas em diferentes escalas por exemplo valores monetários e quantidade física a melhora da convergência de algoritmos de aprendizado de máquina como o gradiente descendente que tendem a convergir mais rapidamente quando os dados estão normalizados e o equilíbrio entre atributos evitando que atributos com valores maiores dominem a análise em detrimento de outros Cao et al 2023 mencionam a importância da normalização no contexto de modelos de gestão de receita onde a padronização dos dados facilita a aplicação de modelos logísticos multinomiais crucial para prever comportamentos de compra As técnicas comuns de normalização incluem HAN et al 2011 Escala MinMax Ajusta os dados para que fiquem dentro de uma faixa específica geralmente 0 1 Padronização ZScore Ajusta os dados para ter média 0 e desvio padrão 1 tornando mais fácil para algoritmos lidar com uma distribuição normal Normalização por Máximo Absoluto Redimensiona os dados de modo que os valores absolutos máximos sejam 1 útil para dados dispersos Escalonamento Robusto Robust Scaler Ajusta os dados usando a mediana e o intervalo interquartil sendo especialmente eficaz para dados com valores atípicos 2114 Outliers Boxplot Os valores atípicos também conhecidos como outliers são observações que se desviam significativamente do padrão geral de um conjunto de dados Esses 29 valores extremos podem surgir por diferentes razões como erros de mensuração falhas na entrada de dados flutuações experimentais ou em muitos casos características genuínas e relevantes que refletem fenômenos incomuns ou exceções significativas WASSERMAN 2020 Embora os outliers possam representar ruídos que distorcem a análise também podem oferecer informações importantes quando contextualizados corretamente A presença de outliers tem um impacto direto sobre a qualidade das análises estatísticas e a confiabilidade dos modelos preditivos Eles podem influenciar métricas de tendência central como média e dispersão como desvio padrão enviesar modelos de regressão e comprometer o desempenho de algoritmos de aprendizado de máquina Em particular Cao et al 2023 demonstram que a remoção ou o tratamento adequado de outliers é essencial em modelos de previsão de demanda e gestão de receita que combinam estruturas de demanda independentes com modelos logit multinomial O estudo destaca como a presença de outliers pode levar à subestimação ou superestimação de demanda impactando negativamente a eficiência de decisões estratégicas como precificação e alocação de recursos Para a detecção de outliers uma das ferramentas gráficas mais eficientes e amplamente utilizadas é o boxplot ou gráfico de caixa e bigodes Esse gráfico oferece uma representação visual da distribuição dos dados com base em medidas resumo como os quartis mediana mínimo e máximo e permite a identificação objetiva de valores discrepantes O Intervalo Interquartil IQR calculado como a diferença entre o terceiro quartil Q3 e o primeiro quartil Q1 é usado como base para definir os limites dos chamados bigodes do boxplot Valores que se encontram fora do intervalo compreendido entre Q1 15IQR e Q3 15IQR são considerados potenciais outliers e geralmente são destacados no gráfico por pontos individuais KRISHNAMURTHY DESHPANDE 2022 ZUUR IENO ELPHICK 2019 A análise gráfica por meio de boxplots é especialmente útil durante a fase de exploração de dados no processo de Knowledge Discovery in Databases KDD uma vez que permite uma rápida identificação de anomalias antes da aplicação de técnicas mais robustas de modelagem Em contextos de negócios saúde 31 engenharia ou ciências sociais os outliers podem representar tanto riscos analíticos quanto oportunidades de descoberta dependendo de como são interpretados Adicionalmente métodos estatísticos como o teste de Grubbs zscore padronizado e técnicas de clusterização como DBSCAN também são amplamente utilizados para detectar outliers em grandes volumes de dados Com o avanço da ciência de dados têmse adotado abordagens híbridas que combinam estatística clássica com algoritmos de aprendizado de máquina para classificar ponderar e até mesmo corrigir ou imputar valores discrepantes com maior grau de confiabilidade HAN et al 2011 21141 Estrutura e Componentes de um Boxplot OO boxplot também conhecido como gráfico de caixa e bigodes boxand whisker plot é uma ferramenta gráfica amplamente utilizada na estatística exploratória para representar de forma sintética a distribuição de um conjunto de dados Sua principal função é apresentar visualmente cinco medidasresumo fundamentais valor mínimo primeiro quartil Q1 mediana Q2 terceiro quartil Q3 e valor máximo permitindo observar a dispersão a simetria e a presença de possíveis valores atípicos outliers em um conjunto de dados PAGANO GAUVREAU 2018 Essa técnica oferece uma visão clara da variabilidade dos dados e da densidade em torno dos quartis sendo particularmente eficaz na comparação entre distribuições distintas ou na identificação de assimetrias e desvios A seguir detalhamse os principais elementos constituintes do boxplot Mediana Q2 Representada por uma linha horizontal localizada dentro da caixa a mediana corresponde ao segundo quartil ou seja o ponto que separa os 50 inferiores dos 50 superiores dos dados É uma medida robusta de tendência central menos sensível a valores extremos do que a média aritmética FIELD MILES FIELD 2017 Caixa Q1 a Q3 A estrutura retangular do gráfico compreende a faixa entre o primeiro quartil Q1 25 dos dados e o terceiro quartil Q3 75 dos dados Esse intervalo denominado amplitude interquartil IQR Interquartile Range representa os 50 centrais dos dados excluindo os extremos 31 inferiores e superiores A IQR é uma medida fundamental de dispersão eficaz para caracterizar a variabilidade dos dados sem a influência de outliers WASSERMAN 2020 WICKHAM GROLEMUND 2017 Bigodes Whiskers Os bigodes se estendem a partir das extremidades da caixa até os limites inferiores e superiores definidos como 15 vezes a IQR abaixo de Q1 e acima de Q3 Valores dentro desses limites são considerados normais na distribuição dos dados KRISHNAMURTHY DESHPANDE 2022 A extensão dos bigodes ajuda a visualizar a cauda da distribuição e identificar a assimetria Valores Atípicos Outliers Dados que se encontram fora dos limites dos bigodes são identificados como outliers e geralmente são representados por círculos asteriscos ou outros símbolos Esses valores podem indicar erros de medição registros incorretos ou fenômenos reais fora da distribuição esperada e merecem investigação especial pois podem influenciar de forma significativa análises estatísticas e decisões baseadas em dados ZUUR IENO ELPHICK 2019 Valores Mínimos e Máximos dentro dos limites Os extremos inferiores e superiores que ainda se encontram dentro dos limites definidos pelos bigodes representam os menores e maiores valores considerados regulares na distribuição Eles delimitam a cauda do conjunto de dados sem incluir os pontos considerados atípicos KABACOFF 2021 Além de sua simplicidade visual o boxplot é especialmente útil em contextos comparativos como quando se deseja analisar diferentes grupos ou categorias de uma variável Ao permitir a visualização simultânea de mediana dispersão e simetria o gráfico de caixa e bigodes tornase uma ferramenta indispensável em análises exploratórias diagnósticos estatísticos e em aplicações que envolvem a limpeza e validação de dados como no processo de Knowledge Discovery in Databases KDD A Figura 2 demonstra como as informações são visualmente dispostas Figura 2 Boxplot 33 Fonte Adaptado pelo autor 2025 Os boxplots são ferramentas eficazes para a identificação de outliers análise de distribuição e comparação entre grupos de dados Neles os outliers são facilmente identificados como pontos fora dos bigodes facilitando a visualização de anomalias Além disso o boxplot permite uma rápida visualização da distribuição dos dados evidenciando a presença de simetria ou assimetria Ao comparar boxplots de diferentes grupos é possível identificar diferenças significativas na distribuição e na presença de outliers entre os grupos Ao usar boxplots é possível visualizar claramente como os outliers podem influenciar a distribuição dos dados Por exemplo a presença de outliers pode distorcer a média puxandoa para cima ou para baixo Outliers também aumentam a variabilidade aparente dos dados refletida pelo comprimento dos bigodes do boxplot Identificar e tratar outliers pode levar a decisões mais informadas e precisas melhorando a qualidade das análises e previsões 2115 Uso do Python No cenário acadêmico o Python se tornou uma das ferramentas mais utilizadas para preparação dos dados conforme demonstrado pelo Times Higher Education World University Rankings 2023 que identificou o Python como linguagem padrão em 92 das 100 melhores universidades globais para cursos de ciência de dados e áreas afins Essa predominância se verifica especialmente no contexto da descoberta de conhecimento em bases de dados KDD Sua utilização 33 auxilia de forma relevante na garantia da adequação dos dados para análises mais detalhadas e na implementação de modelos avançados de mineração Abaixo são mencionadas algumas das principais bibliotecas do Python e suas funcionalidades essenciais destacando a importância dessas ferramentas na manipulação eficaz dos dados 21151 Pandas A biblioteca Pandas desenvolvida por Wes McKinney 2010 tornouse uma das ferramentas mais utilizadas em ciência de dados e análise estatística com Python Seu desenvolvimento visou suprir a necessidade de uma estrutura de dados robusta e eficiente para análise de dados em grande escala especialmente em aplicações que envolvem séries temporais e dados numéricos Desde então Pandas tem se consolidado como um dos principais pilares do ecossistema Python voltado à análise de dados Dentre suas funcionalidades mais relevantes destacamse as estruturas de dados fundamentais o DataFrame e a Series O DataFrame é uma estrutura bidimensional semelhante a uma planilha ou tabela SQL composta por colunas com rótulos e tipos de dados heterogêneos enquanto a Series é uma estrutura unidimensional comparável a um vetor com rótulos Essas estruturas são altamente flexíveis e otimizadas para operações de alto desempenho permitindo a realização de análises complexas com sintaxe simples e intuitiva Além disso Pandas oferece suporte abrangente para leitura e escrita de arquivos nos mais variados formatos como CSV Excel JSON Parquet e bancos de dados relacionais via SQL facilitando a integração com diferentes fontes de dados MCKINNEY 2010 Suas capacidades de manipulação e transformação de dados incluem seleção e indexação por rótulos ou posições filtragem condicional ordenação renomeação de colunas substituição de valores criação de colunas derivadas e reestruturação de dados como pivotamento e unpivotamento Outro recurso amplamente explorado é o agrupamento e agregação de dados por meio da função groupby que permite dividir conjuntos de dados com base em critérios específicos aplicar funções de agregação e combinar os resultados o que é fundamental para análises comparativas entre grupos Pandas também possui 35 métodos eficientes para o tratamento de valores ausentes NaN como preenchimento fillna interpolação exclusão de linhas ou colunas com dados faltantes dropna além da detecção de outliers e substituição condicional Adicionalmente a biblioteca permite operações avançadas de mesclagem e junção de dados com funções como merge join e concat possibilitando o cruzamento de informações de diferentes tabelas com base em chaves comuns Isso é particularmente relevante em contextos de integração de dados heterogêneos como aqueles provenientes de múltiplas fontes em projetos de Business Intelligence ou Data Warehousing A combinação de desempenho usabilidade e integração torna o Pandas uma ferramenta indispensável em diversas etapas do processo de Knowledge Discovery in Databases KDD especialmente nas fases de préprocessamento exploração e preparação de dados antes da aplicação de modelos estatísticos ou de aprendizado de máquina Sua ampla adoção na comunidade científica e no setor corporativo é evidenciada pela vasta documentação número de contribuições no GitHub e integração com bibliotecas como NumPy Matplotlib Scikitlearn e Seaborn 21152 NumPy A biblioteca NumPy Numerical Python é uma das ferramentas fundamentais no ecossistema da ciência de dados com Python oferecendo suporte a estruturas de dados eficientes e operações matemáticas de alto desempenho Desenvolvida inicialmente por Travis Oliphant e atualmente mantida como projeto de código aberto ela se consolidou como a base para a maioria das bibliotecas científicas e analíticas em Python De acordo com Harris et al 2020 NumPy é amplamente utilizada por seu desempenho superior e por permitir a manipulação eficiente de grandes volumes de dados numéricos A principal estrutura de dados do NumPy é o ndarray um array multidimensional homogêneo que permite armazenar e operar com grandes conjuntos de dados numéricos de forma otimizada Essa estrutura é fundamental para o processamento vetorial e matricial substituindo as listas e estruturas nativas 35 do Python quando se trata de aplicações que exigem desempenho e precisão computacional Dentre suas principais funcionalidades destacase a criação indexação e manipulação de arrays multidimensionais viabilizando o desenvolvimento de algoritmos científicos financeiros e estatísticos com grande eficiência O NumPy oferece também uma vasta gama de funções matemáticas estatísticas e lógicas que permitem realizar desde operações básicas soma multiplicação exponenciação até cálculos mais avançados como transformadas de Fourier álgebra linear integração e geração de números aleatórios Um dos maiores diferenciais da biblioteca está na sua capacidade de realizar operações vetorizadas ou seja aplicar funções diretamente a arrays inteiros sem a necessidade de loops explícitos Isso não apenas simplifica o código como também melhora significativamente o desempenho principalmente em relação às listas tradicionais do Python uma vez que essas operações são otimizadas em linguagem C internamente O NumPy é frequentemente utilizado como fundamento para outras bibliotecas da ciência de dados como Pandas Matplotlib Scikitlearn e TensorFlow pois fornece o suporte matemático necessário para manipulação de dados em diferentes contextos Sua interoperabilidade com bibliotecas de álgebra linear sistemas de equações diferenciais e manipulação de imagens tornao essencial em áreas como machine learning análise estatística simulação computacional e inteligência artificial 21153Scikitlearn A biblioteca Scikitlearn é uma das principais ferramentas disponíveis no ecossistema Python para a implementação de técnicas de aprendizado de máquina machine learning Desenvolvida originalmente por Pedregosa et al 2011 ela oferece uma interface unificada e de fácil utilização para uma ampla gama de algoritmos de aprendizado supervisionado e não supervisionado além de ferramentas para avaliação validação e otimização de modelos 37 Um dos principais diferenciais do Scikitlearn é sua modularidade e integração com outras bibliotecas fundamentais como NumPy SciPy e Pandas Essa integração permite a construção de pipelines robustos que englobam desde o pré processamento até a avaliação e refinamento de modelos preditivos As principais funcionalidades da biblioteca incluem Implementação de algoritmos de aprendizado supervisionado como regressão linear regressão logística máquinas de vetor de suporte SVM árvores de decisão florestas aleatórias random forest e redes neurais artificiais simples adequados para tarefas de classificação e regressão Modelos de aprendizado não supervisionado como kmeans DBSCAN aglomeração hierárquica e análise de componentes principais PCA aplicáveis a tarefas de clusterização e redução de dimensionalidade Ferramentas de préprocessamento de dados incluindo normalização padronização codificação de variáveis categóricas OneHot Encoding imputação de valores ausentes e seleção de atributos feature selection permitindo uma preparação rigorosa dos dados antes da modelagem Técnicas de validação cruzada crossvalidation e métodos de avaliação de desempenho como matrizes de confusão curvas ROC métricas de precisão recall f1score e acurácia que são fundamentais para garantir a robustez dos modelos e evitar problemas como overfitting e underfitting Construção de pipelines automatizados permitindo encadear etapas do fluxo de trabalho em aprendizado de máquina o que facilita a reprodutibilidade manutenção e escalabilidade dos modelos desenvolvidos O Scikitlearn possui ampla documentação comunidade ativa e compatibilidade com bibliotecas de visualização como Matplotlib e Seaborn o que o torna extremamente atrativo para projetos acadêmicos e profissionais Sua arquitetura modular associada à simplicidade de uso o consolidou como uma das bibliotecas mais utilizadas em pesquisas e aplicações práticas de ciência de dados 21154 Matplotlib 37 Matplotlib é uma biblioteca de visualização de dados em Python altamente versátil e amplamente utilizada Ela permite a criação de uma variedade extensa de gráficos desde gráficos simples até visualizações complexas e customizadas É uma ferramenta fundamental para cientistas de dados analistas e desenvolvedores que precisam visualizar dados de maneira eficaz HUNTER 2007 Suas principais funcionalidades são Criação de uma ampla variedade de gráficos estáticos e interativos Customização extensiva de gráficos incluindo estilo cores e rótulos Integração com outras bibliotecas de Python como NumPy e Pandas facilitando a visualização direta de dados armazenados em arrays e DataFrames Produz gráficos de alta qualidade que podem ser exportados para diversos formatos Facilita a criação de subplots e layout complexos permitindo a visualização de múltiplos gráficos em uma única figura 21155 Seaborn Seaborn é uma biblioteca de visualização de dados em Python sobre Matplotlib Ela é especialmente projetada para tornar a criação de gráficos estatísticos atraentes e informativos mais fácil e intuitiva Seaborn integrase bem com as estruturas de dados do Pandas permitindo a criação de visualizações diretamente a partir de DataFrames o que facilita o processo de análise exploratória de dados WASKOM et al 2020 Suas principais funcionalidades são Fornece uma variedade de gráficos estatísticos que facilitam a visualização de distribuições relações e comparações entre Suporta a criação de gráficos diretamente a partir de DataFrames do Pandas Possui uma variedade de temas e estilos de gráficos predefinidos que melhoram a estética das visualizações Simplifica muitas das complexidades de Matplotlib permitindo a criação rápida de visualizações complexas com poucas linhas de código 39 Oferece suporte robusto para análise de dados categóricos incluindo gráficos de barras gráficos de pontos e gráficos de contagem Inclui funções para criar mapas de calor heatmaps de matrizes de correlação que são úteis para visualizar a força das relações entre múltiplas variáveis 21156 Missingno Outra ferramenta relevante é o Missingno uma biblioteca de visualização de dados em Python especializada na identificação e apresentação gráfica de valores ausentes em conjuntos de dados Ela é útil para a análise exploratória pois facilita a detecção de padrões de ausência de dados e apoia na definição de estratégias para lidar com esses valores ausentes WASKOM et al 2020 Suas principais funcionalidades são Integrase com a biblioteca Pandas fornecendo visualizações que auxiliam na compreensão da distribuição e dos padrões de valores ausentes em um DataFrame Possui uma interface simples exigindo poucas linhas de código para gerar visualizações informativas relacionadas aos dados ausentes O domínio dessas ferramentas contribui para melhorar a qualidade dos dados analisados e fortalecer as habilidades analíticas dos profissionais Isso permite que analistas realizem suas atividades com maior eficácia e precisão Assim o conhecimento em Python e em suas bibliotecas associadas configurase como um recurso valioso para profissionais envolvidos com análise de dados e modelagem preditiva no contexto acadêmico e em outras áreas VANDERPLAS 2016 212 Transformação de Dados A transformação de dados consiste em processos que modificam os dados brutos para adequálos às etapas seguintes de análise como normalização padronização discretização entre outros procedimentos Esses métodos são fundamentais para preparar os dados e melhorar a eficiência dos algoritmos de mineração 39 Já a análise multivariada amplamente aplicada em estudos ambientais e espaciais NIJKAMP 1999 é uma técnica estatística que considera simultaneamente múltiplas variáveis para auxiliar na compreensão de fenômenos complexos Seu objetivo não é maximizar ou definir uma solução ótima mas oferecer uma visão mais próxima da realidade especialmente em contextos que envolvem múltiplos critérios quantitativos e qualitativos No método proposto para segmentação de clientes B2B a análise multivariada é utilizada como ferramenta para explorar e compreender padrões nos dados contribuindo para a fundamentação das decisões relacionadas à segmentação 2121 Método de Clusterização A análise de agrupamentos é um conjunto de técnicas que visa agrupar objetos com base em suas semelhanças e diferenças A formação dos grupos busca garantir que os objetos dentro de um mesmo grupo sejam semelhantes entre si e em relação aos demais grupos o mais diferentes possível O método não faz distinção entre variáveis dependentes e independentes uma vez que seu objetivo é caracterizar os grupos MALHOTRA 2006 Esse tipo de análise é especialmente útil quando o número de observações é tão grande que a análise individual dos eventos tornase impraticável Assim são criados grupos ou clusters que facilitam a manipulação e a investigação dos dados Na análise de agrupamentos não há conhecimento prévio sobre a formação ou posição dos grupos Essa técnica não é classificatória no sentido de não atribuir categorias previamente definidas mas sim descritiva Segundo HAIR et al 2009 não se faz suposições sobre a existência características ou quantidade dos grupos já que os agrupamentos são determinados com base em medidas de similaridade ou distância O processo de formação dos clusters envolve basicamente duas etapas a estimativa das medidas de similaridade entre os objetos e a aplicação de uma técnica para formar os grupos 41 De acordo com HAIR et al 2009 existem diversas medidas de similaridade disponíveis e a escolha da técnica depende da preferência e do objetivo do pesquisador As técnicas de agrupamento podem ser classificadas em dois tipos a Abordagem Hierárquica consiste em agrupamentos sucessivos aglomeração ou divisões repetidas divisiva dos elementos Os resultados são apresentados em forma de dendrogramas que mostram as distâncias entre os grupos formados Cada ramo do dendrograma representa um elemento e a base representa o conjunto completo Nesta técnica o número de clusters é definido após a análise com base na distribuição das distâncias b Abordagem Não Hierárquica consiste em agrupar os elementos em k grupos onde k é o número de clusters previamente definido pelo pesquisador 21211 Elbow O método do Elbow tem como objetivo identificar o ponto em que adicionar mais clusters não traz um benefício relevante conhecido como cotovelo da curva À medida que o número de clusters aumenta a soma dos erros quadrados Sum of Squared Errors SSE também chamada de inércia geral tende a diminuir pois os clusters ficam menores e os elementos mais próximos de seus centroides reduzindo a soma dos quadrados dentro dos clusters Contudo essa redução no SSE tornase mínima a partir de determinado ponto formando um cotovelo no gráfico Esse ponto de inflexão indica o número ideal de clusters a ser adotado Aumentar o número de clusters além desse ponto não traz melhorias significativas na redução da SSE podendo levar a um ajuste excessivo overfitting dos dados Figura 3 Exemplificação Gráfica Elbow 41 Fonte Adaptado pelo autor 2025 Na Figura 03 o gráfico do Método do Cotovelo ilustra a relação entre o número de grupos e a Soma dos Quadrados dos Erros SSE O SSE diminui significativamente quando o número de grupos aumenta de 2 para 3 e essa redução continua à medida que mais grupos são adicionados Contudo a diminuição do SSE tornase menos pronunciada após o número de grupos ser 4 O ponto em que o número de grupos é 4 ou 5 no nosso caso mais próximo de 4 mostra um cotovelo mais evidente onde a taxa de decréscimo do SSE começa a estabilizar Embora haja uma redução contínua a melhora marginal na coesão dos clusters começa a diminuir consideravelmente a partir desse ponto Com base na análise visual do gráfico o número ideal de grupos para este conjunto de dados seria 4 pois adicionar mais grupos a partir daí oferece um retorno decrescente em termos de redução do SSE 21212 Silhouette Na Figura 04 o gráfico da Pontuação de Silhueta em função do número de clusters revela que a pontuação é significativamente alta aproximadamente 098 ao considerar 2 agrupamentos Isso sugere uma separação muito eficaz e coesão interna robusta para esses dois grupos No entanto o valor da Pontuação de Silhueta diminui drasticamente para cerca de 037 quando o número de agrupamentos aumenta para 3 e a partir daí permanece em um nível relativamente 43 baixo e estável para quantidades maiores de clusters variando entre aproximadamente 037 e 048 Ao considerar a avaliação da Pontuação de Silhueta em conjunto com a análise do Método do Cotovelo Figura 03 percebese uma discrepância Enquanto o Método do Cotovelo pode indicar 4 clusters como um ponto de inflexão onde a redução do SSE começa a diminuir a Pontuação de Silhueta aponta que apenas 2 clusters oferecem a melhor distinção e coesão entre os dados Portanto com base exclusivamente na Pontuação de Silhueta fornecida o número ideal de clusters seria 2 Essa divergência entre as duas métricas é comum e ressalta a importância de empregar múltiplas abordagens e critérios para tomar decisões bem fundamentadas em problemas de clusterização A escolha final do número de clusters deve considerar não apenas as métricas estatísticas mas também o contexto do problema e o conhecimento de domínio 2122 KMeans O método kmeans é uma técnica de análise não hierárquica que ao receber um número prédefinido de agrupamentos k identifica os pontos que representam os centros desses clusters e distribui os dados de forma equilibrada até atingir um estado estável HAIR 2009 Os centroides iniciais são definidos aleatoriamente Em seguida cada observação é atribuída ao cluster cujo centroide é o mais próximo mensurado pela distância entre a observação e o centroide do grupo À medida que as observações são atribuídas as médias dos clusters são recalculadas resultando no ajuste da posição dos centroides Um processo iterativo é empregado para encontrar os centroides finais que são responsáveis por definir a composição de cada cluster A cada iteração os dados são reagrupados com base no centroide mais próximo e as médias são recalculadas Esse procedimento se repete até que não ocorra mais mudanças na atribuição das observações aos respectivos clusters HAIR et al 2009 O objetivo principal desse método é garantir a menor distância possível entre cada elemento do grupo e seu respectivo centroide Isso assegura que dentro de 43 cada grupo os elementos sejam o mais homogêneos possível e consequentemente distintos em relação aos elementos dos outros grupos Essa abordagem foi utilizada para realizar a segmentação neste trabalho 2123 Análise Fatorial A análise fatorial é uma técnica estatística usada para explicar a variação entre variáveis observadas e correlacionadas em termos de menos variáveis não observadas chamadas fatores Em essência procurase identificar estruturas subjacentes que explicam os padrões de correlação dentro de um conjunto de variáveis observadas Conforme HÖPPNER et al 2018 afirmam a análise fatorial é empregada para descobrir relações subjacentes entre as variáveis observadas agrupandoas em fatores que representam construtos latentes Essa abordagem é útil para reduzir a complexidade dos dados e identificar os fatores significativos que afetam o comportamento do consumidor Ao aplicar essa técnica é possível criar uma matriz de cargas fatoriais capaz de explicar as correlações entre os fatores compartilhados Para isso juntamente com a matriz de correlação dos indicadores existem autovetores que indicam o percentual da variação explicada pelos fatores garantindo que a soma das variâncias dos fatores seja igual à variação total do modelo Portanto a determinação do número de fatores no modelo influencia diretamente na capacidade explicativa da análise O processo da análise fatorial tem início com a elaboração da matriz de correlação das variáveis observadas seguida pela extração dos fatores Existem diversos métodos para essa extração como por exemplo a Análise de Componentes Principais PCA Thompson 2004 2124 Análise de Componentes Principais PCA A Análise de Componentes Principais PCA Principal Component Analysis é uma técnica estatística utilizada para reduzir a dimensionalidade de um conjunto de dados Ela transforma um grande grupo de variáveis interrelacionadas em um 45 conjunto menor de variáveis independentes conhecidas como componentes principais Cada componente principal é uma combinação linear das variáveis originais organizada de forma a capturar a maior variância possível dos dados A PCA é frequentemente empregada para reduzir o número de variáveis em conjuntos extensos de dados o que simplifica a visualização e a análise Além disso auxilia na detecção e compreensão de padrões nos dados facilitando o reconhecimento de tendências ou agrupamentos Também é comumente utilizada como parte do préprocessamento para algoritmos computacionais ajudando a eliminar ruídos e a simplificar as informações A análise de PCA envolve o cálculo de uma matriz de covariância dos dados centralizados que serve como base para a derivação dos autovalores e autovetores elementos cruciais para a formação das componentes principais HAIR et al 2009 A aplicabilidade da Análise de Componentes Principais PCA na redução da dimensionalidade e na derivação de fatores significativos é exemplificada por Cumps et al 2009 Em seu trabalho os autores utilizaram o algoritmo de indução de regras AntMiner para inferir regras compreensíveis de alinhamento entre negócios e Tecnologia da Informação e Comunicação TIC empregando um conjunto de dados com informações de alinhamento de 641 organizações 213 Data Mining para Classificação 2131 Algoritmos de Classificação Diante da crescente demanda por análise de grandes volumes de dados e da evolução da inteligência artificial a aplicação de técnicas avançadas tornouse indispensável para extrair insights significativos de vastos conjuntos de informações Métodos como árvores de decisão redes neurais artificiais e algoritmos genéticos são amplamente empregados no campo do aprendizado de máquina e da mineração de dados Essas ferramentas têm revolucionado a interpretação de dados possibilitando a abordagem de questões complexas e a realização de previsões com elevada precisão Nesse cenário os algoritmos de classificação em particular desempenham um papel crucial na organização e análise de dados Eles são capazes de identificar 45 padrões prever comportamentos futuros e oferecer suporte à tomada de decisões estratégicas Neste contexto é fundamental compreender as diferentes técnicas disponíveis as árvores de decisão por exemplo fornecem regras de classificação intuitivas e interpretáveis as redes neurais artificiais destacamse no reconhecimento de padrões complexos e não lineares e os algoritmos genéticos otimizam a busca por soluções ideais através de processos evolutivos No presente trabalho as árvores de decisão serão exploradas como uma ferramenta interpretativa para regras de classificação enquanto as redes neurais artificiais serão utilizadas para modelagem preditiva Além disso os algoritmos genéticos serão abordados destacando suas aplicações em otimização e modelagem preditiva com exemplos como a técnica AntMiner na previsão de churn de clientes Cada um desses métodos será detalhado em termos de suas aplicações vantagens e contribuições para a análise de dados e a tomada de decisões estratégicas 2132 Decision Tree Árvores de Decisão para Regras de Classificação A técnica da árvore de decisão é amplamente utilizada no aprendizado supervisionado para classificação e regressão Ela funciona dividindo os dados em subconjuntos com base em características que melhor distinguem a variávelalvo Uma das grandes vantagens das árvores de decisão é a sua capacidade interpretativa proporcionando um processo de tomada de decisão claro e fácil de entender LAROCHELLE et al 2022 Ao empregar o algoritmo da árvore de decisão é viável estimar se um cliente tem alta ou baixa probabilidade de adquirir um produto específico com base em seu perfil A estrutura organizada da árvore facilita a compreensão dos principais fatores que influenciam as previsões MOLNAR 2022 De acordo com Cumps et al 2009 técnicas como a mineração de dados usando árvores de decisão são eficientes na classificação de dados complexos permitindo inferir regras claras a partir dos dados coletados Estudo recente de Chen et al 2021 no Journal of Marketing Analytics demonstrou essa eficácia ao prever rotatividade de clientes churn em empresas de telecomunicações utilizando 47 árvores de decisão combinadas com análise fatorial para identificar os principais drivers de retenção Ademais o uso de algoritmos de árvore de decisão conforme ressaltado por Höppner et al 2018 e validado por Lundberg et al 2020 em seu trabalho com SHAP values pode aprimorar a precisão das previsões e otimizar o lucro esperado em contextos específicos tornandoos particularmente adequados para aplicações empresariais onde interpretabilidade e eficácia são essenciais embora não constituam uma solução universal para todos os casos de negócio DOMINGOS 2015 2133 RF Random Forest Random Forest é uma técnica de aprendizado em conjunto que cria várias árvores de decisão e combina suas previsões para melhorar a precisão e evitar o sobreajuste Cada árvore na floresta é construída com uma parcela aleatória dos dados de treinamento e um conjunto aleatório de características A previsão final é obtida através da média das previsões de todas as árvores individuais Breiman 2001 descreveu o Random Forest como um método caixa preta capaz de lidar facilmente com conjuntos de dados complexos Para exemplificar em um conjunto de dados de saúde contendo diversos parâmetros médicos como pressão arterial níveis de colesterol e histórico familiar de doenças o algoritmo Random Forest pode ser utilizado para estimar a probabilidade de um paciente desenvolver uma determinada condição com base em seu perfil médico Essa abordagem ajuda a capturar a complexidade das relações entre diferentes variáveis e gera previsões mais consistentes VERBEKE et al 2011 2134 RNA Redes Neurais Artificiais As redes neurais artificiais RNAs são algoritmos de aprendizado automático que se inspiram na estrutura neural do cérebro humano Elas são compostas por nós interconectados neurônios organizados em camadas onde em cada neurônio são realizados cálculos matemáticos a partir dos dados fornecidos Essas redes têm 47 a capacidade de identificar padrões e conexões complexas nos dados por meio da retropropagação De acordo com Rumelhart et al 1986 as redes neurais podem aprender e se adaptar com base em pares de entradasaída o que as torna adequadas para tarefas como reconhecimento de imagens e processamento de linguagem natural As RNAs têm sido amplamente empregadas em várias situações envolvendo modelagem preditiva No estudo de Pollak 2021 foi evidenciado que redes neurais superam os modelos estatísticos tradicionais na previsão do valor do tempo de vida do cliente Lifetime Value LTV especialmente em situações em que as relações entre as variáveis são complexas e não lineares As redes neurais apesar de serem exigentes em termos de processamento e engenharia de características mostraram se mais precisas ao modelar o comportamento futuro dos clientes com base em dados históricos Em pesquisa conduzida por Su et al 2023 publicada no Journal of Marketing Analytics a utilização de redes neurais foi explorada para a previsão do LTV em plataformas de publicidade online A estratégia empregou transformações wavelet cuja função matemática usada para dividir dados em diferentes componentes de frequência e em seguida estudar cada componente com uma resolução correspondente à sua escala as wavelets podem localizar características temporais específicas dentro dos dados e grafos de atenção para aprender representações dos usuários a partir de dados históricos esparsos e voláteis resultando em previsões mais sólidas e precisas Essa abordagem se destacou pela capacidade de lidar com a variabilidade nos comportamentos dos usuários ao longo do tempo Um estudo relevante conduzido por Adadi e Berrada 2018 demonstrou os desafios de interpretabilidade em redes neurais enquanto Xie et al 2019 comprovaram sua eficácia na previsão de rotatividade de clientes em cenários reais Como destacado por Arrieta et al 2020 técnicas de XAI eXplainable AI têm sido desenvolvidas para tornar esses modelos mais transparentes para profissionais de negócios Em síntese as redes neurais artificiais representam uma ferramenta poderosa para análise e previsão em diversos campos proporcionando benefícios significativos em termos de precisão e capacidade para lidar com dados complexos 49 No entanto a interpretação dos resultados pode se mostrar um desafio demandando abordagens adicionais para tornar os modelos mais transparentes e fáceis de compreender MOLNAR 2022 2135 AG Algoritmos Genéticos Algoritmos Genéticos AGs representam um tipo específico de algoritmo de otimização inspirado nos conceitos de seleção natural e genética Eles operam imitando os princípios biológicos de cruzamento recombinação mutação e seleção para evoluir uma população de soluções candidatas em direção a uma solução otimizada No contexto de previsão de churn de clientes Verbeke et al 2011 investigam o emprego de algoritmos genéticos e mais especificamente a técnica AntMiner destacando que o AntMiner é um algoritmo baseado em otimização por colônia de formigas ACO que utiliza princípios de algoritmos genéticos para desenvolver modelos classificatórios fundamentados em regras Essa abordagem possibilita a incorporação do conhecimento do domínio resultando em modelos preditivos que são tanto precisos quanto intuitivos aspecto crucial para aplicações práticas no mundo dos negócios Verhoeven et al 2023 discutem a utilização dos algoritmos genéticos na otimização da gestão de receitas Os autores empregam o modelo para resolver desafios complexos relacionados ao planejamento de recursos e seleção do mix em ambientes com demanda variada A abordagem fundamentada nos algoritmos genéticos destacase pela sua habilidade em lidar com a complexidade e incerteza inerentes a esses problemas oferecendo soluções robustas e eficazes O processo de evolução genética nos Algoritmos Genéticos possibilita a navegação eficaz por extensos espaços de soluções auxiliando na descoberta de conjuntos de parâmetros otimizados Esses estudos evidenciam que os algoritmos genéticos constituem ferramentas poderosas para otimização e modelagem preditiva em diferentes cenários Considerando diversas técnicas de aprendizado de máquina como árvores de decisão Random Forest redes neurais artificiais e algoritmos genéticos é evidente que cada uma possui seus pontos fortes e aplicações específicas 49 Enquanto técnicas como árvores de decisão e Random Forest são valorizadas por sua interpretabilidade e robustez na classificação e redes neurais artificiais se destacam em tarefas complexas de reconhecimento de padrões e previsão os algoritmos genéticos são particularmente úteis para problemas de otimização Essas ferramentas em conjunto permitem a análise de grandes volumes de dados e contribuem para a tomada de decisões embasadas em um cenário impulsionado por dados 22 SEGMENTAÇÃO DE CLIENTES No contexto empresarial contemporâneo caracterizado por mercados cada vez mais competitivos e saturados as organizações enfrentam o desafio constante de fidelizar seus clientes e otimizar processos de venda complexos A segmentação de clientes emerge assim como uma metodologia crucial para refinar estratégias de marketing aprimorar a retenção de clientes e maximizar o valor do tempo de vida do cliente LTV Customer Lifetime Value Para garantir a eficácia dessa abordagem técnicas como a avaliação da pureza e uniformidade dos segmentos a diferenciação entre grupos a aplicação de testes de hipóteses e a análise de correlação entre segmentos e variáveis de negócio são consideradas essenciais No desenvolvimento deste estudo diversos aspectos críticos da segmentação de clientes são abordados Inicialmente a pureza e uniformidade dos segmentos são avaliadas para verificar a coesão interna dos grupos formados Em seguida a diferenciação entre segmentos é explorada para assegurar que os grupos sejam distintos e consequentemente úteis para a tomada de decisão Os testes de hipóteses são empregados para comparar segmentos e características dos clientes validando a significância estatística das diferenças observadas Adicionalmente a análise de correlação entre segmentos e variáveis de negócio auxilia na identificação de quais grupos contribuem mais para o desempenho empresarial Por fim conceitos fundamentais como o Custo de Aquisição de Cliente CAC e o LTV são discutidos para uma compreensão aprofundada da rentabilidade e do impacto econômico dos diferentes segmentos de clientes 51 221 Pureza e Uniformidade dos Segmentos A pureza e a uniformidade são critérios cruciais utilizados para avaliar a consistência interna de segmentos ou grupos formados em um conjunto de dados A pureza mede a proporção de membros em um grupo que compartilham a mesma característicaalvo indicando a predominância de uma categoria específica A uniformidade por sua vez analisa o quão homogêneas são as características dentro do grupo demonstrando o grau de similaridade entre os membros A avaliação da pureza e uniformidade dos grupos é fundamental para analisar a coesão interna de um conjunto de clientes Essas métricas são indicativos diretos da similaridade entre os membros de um grupo em termos das características observadas Para mensurar os níveis de pureza e uniformidade ferramentas de programação como o Python podem ser utilizadas para implementar os cálculos necessários resultando nas seguintes interpretações Alta Pureza Indica que a maioria dos membros do grupo compartilha a mesma característica dominante implicando em uma forte coesão interna Baixa Pureza Sinaliza que o grupo possui uma variedade de características distintas mostrando uma ligação interna fraca e heterogeneidade A uniformidade pode ser mensurada utilizando o conceito de Entropia Baixa Entropia Aponta para uma grande uniformidade significando que os membros do grupo são altamente similares entre si Alta Entropia Indica uma grande diversidade dentro do grupo sugerindo baixa uniformidade e maior variabilidade Na análise de segmentação um grupo é considerado puro quando a maioria de seus membros compartilha características similares resultando em uma coesão interna elevada e bem definida Por exemplo no estudo realizado por Dahana et al 2019 a pureza e uniformidade dos grupos foram examinadas com base nas características de estilo de vida e comportamento de compra dos clientes demonstrando que segmentos bem definidos podem melhorar a precisão das previsões do valor vitalício do cliente LTV Além disso em seu artigo Verbeke et al 2011 ressaltam a importância do 51 uso de algoritmos genéticos como o AntMiner para garantir a coesão interna dos grupos por meio de regras claras e compreensíveis 222 Diferenciação entre Segmento A distinção entre os grupos é fundamental para garantir que sejam exclusivos e abrangentes ao mesmo tempo Uma clara separação entre os grupos facilita a criação de estratégias de marketing direcionadas tornandoas mais eficazes e eficientes A diferenciação entre grupos pode ser medida por meio de diferentes métricas e métodos estatísticos Alguns deles são Distância entre Centros dos Agrupamentos Centroides Análise de Variância ANOVA Teste de Hipóteses Testes T A distância entre centros dos agrupamentos Centroides é uma maneira direta de avaliar a diferenciação entre grupos calculando a distância entre os centroides centros dos agrupamentos Quanto maior for essa distância maior será a diferenciação entre os grupos ou seja Alta Distância sinaliza uma grande diferenciação entre os grupos sugerindo que os agrupamentos são distintos e possuem características únicas Baixa Distância indica uma baixa diferenciação indicando que os agrupamentos são semelhantes e podem não representar grupos distintos A Análise de Variância ANOVA é utilizada para comparar as médias de várias amostras e verificar se pelo menos uma das médias difere significativamente das outras Isso ajuda a determinar se existem diferenças significativas entre os grupos formados ou seja Um Festatístico alto e um valorp baixo indicam que pelo menos uma média de grupo difere significativamente das outras sugerindo distinção entre os grupos Um Festatístico baixo e um valorp alto indicam que não há diferenças significativas entre as médias dos grupos 53 Os testes de hipótese Testes T são utilizados para comparar as médias de dois grupos a fim de verificar se são significativamente diferentes Para múltiplos grupos a ANOVA é preferível embora os testes T possam ser usados para comparações em pares Um Testatístico alto e um valorp baixo indicam que as médias dos dois grupos são significantemente diferentes Um Testatístico baixo e um valorp alto indicam que não há diferença significativa entre as médias dos dois grupos De acordo com estudos de Dahana et al 2019 a diferenciação entre grupos foi feita com base em características comportamentais e psicográficas resultando em grupos que apresentam diferenças significativas no valor vitalício do cliente LTV Da mesma forma Cumps et al 2009 empregaram técnicas de algoritmos genéticos para criar grupos claramente distintos possibilitando a implementação de estratégias comerciais mais direcionadas e eficazes 223 Matriz de Confusão A matriz de confusão é uma ferramenta essencial para avaliar o desempenho de modelos de classificação como os utilizados para prever o Valor do Tempo de Vida do Cliente LTV Ela apresenta o desempenho do algoritmo ao comparar as previsões realizadas com os valores reais conhecidos permitindo a identificação de acertos verdadeiros positivos e verdadeiros negativos e erros falsos positivos e falsos negativos A partir de uma matriz de confusão diversas métricas de desempenho podem ser calculadas para fornecer uma análise detalhada da performance do classificador incluindo Acurácia A proporção total de previsões corretas Precisão ou Valor Preditivo Positivo A proporção de verdadeiros positivos entre todos os resultados positivos previstos pelo modelo Recall ou SensibilidadeRevocação A proporção de verdadeiros positivos que foram corretamente identificados dentre todas as instâncias positivas reais 53 F1Score A média harmônica da precisão e do recall sendo uma medida que equilibra ambas as métricas Especificidade A proporção de verdadeiros negativos que foram corretamente identificados dentre todas as instâncias negativas reais No estudo de Zhang et al 2022 a matriz de confusão foi empregada para avaliar a precisão das previsões do LTV evidenciando a efetividade do método proposto na classificação precisa dos clientes Similarmente Verbeke et al 2011 também utilizam a matriz de confusão para avaliar a acurácia dos modelos preditivos ressaltando a importância dessa ferramenta na validação e no ajuste dos modelos de previsão da rotatividade churn 224 Testes de Hipóteses Os testes de hipóteses são utilizados para comparar grupos e determinar se as diferenças observadas nas características dos clientes têm significância estatística Essas análises auxiliam na confirmação da realidade das distinções entre os grupos evitando interpretações aleatórias No estudo conduzido por Zhang et al 2022 foram empregados testes de hipóteses para comparar diferentes grupos de clientes validando a importância das variações nas características desses grupos para a segmentação Adicionalmente Verhoeven et al 2023 empregaram essas análises para avaliar a eficácia de diversas estratégias de gestão de receitas evidenciando a utilidade desses testes na verificação das abordagens adotadas na segmentação 225 Análise de Correlação entre Segmentos e Variáveis de Negócios A análise de correlação investiga as relações entre os grupos de clientes e indicadores empresariais como receita e frequência de compras Esse tipo de análise é fundamental para identificar quais grupos contribuem mais significativamente para o desempenho do negócio No estudo realizado por Zhang et al 2022 uma análise correlacional foi conduzida com o intuito de examinar a relação entre os grupos de clientes e o LTV revelando que determinados grupos apresentavam uma correlação mais expressiva com altos valores de LTV 55 A importância da análise de correlação na identificação de padrões e na compreensão do impacto dos diferentes segmentos nas variáveis de negócios é amplamente reconhecida na literatura de marketing e gestão MALHOTRA 2018 Essa ferramenta permite aos gestores visualizarem como as características dos segmentos se relacionam com métricas financeiras e operacionais auxiliando na tomada de decisões estratégicas e no direcionamento de recursos para os grupos de clientes mais rentáveis 226 Interpretação dos Resultados e Indicadores A interpretação dos resultados constitui uma etapa crítica dentro do ciclo de desenvolvimento de modelos analíticos e preditivos especialmente no contexto da segmentação de clientes e previsão de métricas de valor como o Lifetime Value LTV Essa fase é responsável por traduzir os resultados quantitativos em informações qualitativas que possam embasar decisões estratégicas A eficácia de um modelo é comumente avaliada por meio de indicadores de desempenho como acurácia precisão recall e F1score que oferecem diferentes perspectivas sobre a qualidade das previsões A acurácia por exemplo mede a proporção de previsões corretas entre todas as realizadas sendo útil em contextos onde as classes estão balanceadas Já a precisão indica a proporção de verdadeiros positivos entre todas as predições positivas enquanto o recall ou sensibilidade mensura a capacidade do modelo de identificar corretamente os casos positivos A pontuação F1 combina essas duas últimas métricas proporcionando uma média harmônica entre precisão e recall e é especialmente valiosa quando há desequilíbrio entre as classes como frequentemente ocorre em análises de churn ou segmentação de clientes com baixa representatividade No estudo de Dahana et al 2019 por exemplo a interpretação dos resultados foi conduzida com base em uma análise integrada desses indicadores Os autores demonstraram que os modelos aplicados à segmentação de clientes e à estimativa do LTV apresentaram níveis elevados de F1score e recall evidenciando sua robustez e confiabilidade principalmente no que diz respeito à capacidade de identificar clientes de alto valor potencial 55 Além da análise técnica dos resultados a compreensão contextual dos achados é essencial Verbeke et al 2011 argumentam que a simples obtenção de métricas estatisticamente satisfatórias não garante a utilidade dos modelos sendo fundamental realizar uma interpretação aprofundada que considere a aplicabilidade prática dos resultados no ambiente de negócios Isso inclui compreender como os segmentos identificados se relacionam com as estratégias comerciais da empresa quais variáveis influenciam significativamente o comportamento dos clientes e quais ações podem ser derivadas diretamente das previsões realizadas 227 CAC e LTV O Valor do Tempo de Vida do Cliente LTV Customer Lifetime Value é uma métrica fundamental que se refere ao total dos benefícios econômicos que uma empresa espera obter de todas as interações com um cliente ao longo de seu relacionamento Essa definição é corroborada por diversos estudos recentes como os de Pollak 2021 Zhang et al 2022 Li et al 2022 Afiniti 2022 e Su et al 2023 Nesse contexto a crescente complexidade do mercado e a evolução econômica contemporânea têm acentuado a importância para as empresas de construir e manter relacionamentos de longo prazo com seus clientes A base para decisões operacionais e estratégicas passou a incluir o LTV pois ele reflete o valor de longo prazo que um cliente representa para o negócio Para uma gestão comercial e de Inteligência de Mercado eficaz o conhecimento aprofundado do Custo de Aquisição de Cliente CAC e do LTV é indispensável A análise conjunta dessas métricas permite não apenas a construção de proposições e conclusões robustas sobre a metodologia de segmentação de clientes mas também a orientação da estratégia para a lucratividade otimizando o impacto no LTV 2271 CAC Customer Acquisition Cost O Custo de Aquisição de Clientes CAC é um indicador que mede os gastos com marketing e vendas realizados com a finalidade de adquirir um cliente novo 57 Tratase portanto de uma estimativa de quanto custa para conquistar um novo cliente WU et al 2023 Na concepção de Burelli 2019 a maioria das empresas investe uma parte significativa de sua receita em vendas e marketing Nesse sentido é crucial que realizem uma análise cuidadosa sobre o montante gasto em canais específicos e o número de clientes captados por meio de cada um Essa análise é fundamental para auxiliar na determinação da estratégia de marketing mais eficaz e dos canais de marketing mais lucrativos POLLAK 2021 Em conformidade com essa perspectiva Afiniti 2022 destaca que a aquisição de um novo cliente requer um investimento inicial elevado Este investimento não se limita apenas à comunicação do produto ao mercado mas também envolve a mobilização da força de vendas necessária para o escalonamento do negócio Consequentemente a aquisição de clientes frequentemente representa um dos principais custos da organização podendo em alguns casos atingir até 50 do faturamento da empresa Dada a materialidade do investimento em aquisição o acompanhamento rigoroso do CAC é de suma importância para a gestão Este indicador é essencial para que líderes de vendas e executivos de alto escalão como um CEO tenham uma visão clara do crescimento atual da empresa e da potencial rentabilidade futura que esse crescimento pode gerar Nessa perspectiva para calcular o CAC somamse todos os investimentos em marketing e vendas realizados em um período determinado e esse valor é dividido pela quantidade de clientes captados nesse mesmo período conforme pode ser observado na figura abaixo CACCmv Nc Onde CAC é o Custo de Aquisição de Cliente Cmv é o custo total de marketing e vendas para a aquisição de clientes investimentos 57 Nc é o número de novos clientes adquiridos Por meio dessa fórmula o CAC revelase uma métrica de grande importância estratégica Embora sua compreensão conceitual e o cálculo aritmético sejam diretos o desafio reside na obtenção precisa dos dados de investimento e na correta atribuição dos clientes captados o que pode dificultar a mensuração acurada para muitas empresas É fundamental ressaltar que o CAC não inclui quaisquer custos fixos de produção ou despesas que não estejam diretamente relacionadas aos departamentos de vendas e marketing como os de pesquisa e desenvolvimento finanças e administração ou despesas gerais O que o CAC engloba são todos os custos de vendas e marketing mesmo aqueles incorridos quando um possível cliente opta por não realizar a compra do produto Assim para a sustentabilidade de um modelo de negócios o custo de aquisição de clientes não pode ser superior ao valor que esse cliente gera para a organização ao longo de seu relacionamento o Lifetime Value LTV LI et al 2022 2272 LTV Lifetime Value O Lifetime Value LTV de um cliente conforme já abordado anteriormente seção 228 referese ao valor financeiro total que um cliente gera para a empresa ao longo de todo o seu relacionamento Olnén 2022 complementa essa definição destacando que o LTV representa o lucro médio que o cliente proporciona no período analisado considerando todos os custos associados ao seu ciclo de vida Na verdade o LTV pode ser definido como a receita líquida total que a empresa espera obter de um cliente individual durante todo o período em que ele mantiver sua associação já descontados os custos variáveis incorridos para atender às suas necessidades Na visão de Zhang et al 2022 o cálculo do LTV deve considerar essencialmente três fatores a margem de contribuição a taxa de retenção e a taxa de desconto Primeiramente a margem de contribuição representa a receita anual que os clientes geram subtraídas as despesas operacionais diretas para atendêlos Em segundo lugar a taxa de retenção corresponde ao percentual de clientes de um 59 período por exemplo o primeiro ano que se espera que continuem a consumir no período subsequente segundo terceiro ano e assim por diante Por fim a taxa de desconto referese ao custo de capital atual da empresa aplicada para trazer os fluxos de caixa futuros a valor presente refletindo o valor do dinheiro no tempo A seguir na Figura 2 é apresentada a fórmula para o cálculo do LTV LTV t1 n RtCt 1d t endo LTV é o Valor Vitalício do Cliente Rt é a receita gerada pelo cliente no período t Ct são os custos totais associados ao cliente no período t incluindo custos de aquisição atendimento manutenção e outros custos operacionais d é a taxa de desconto que reflete o valor do dinheiro ao longo do tempo t é o período específico e n é o número total de períodos considerados no ciclo de vida do cliente 2273 LTV Lifetime Value O Lifetime Value LTV de um cliente conforme já abordado anteriormente seção 228 referese ao valor financeiro total que um cliente gera para a empresa ao longo de todo o seu relacionamento Olnén 2022 complementa essa definição destacando que o LTV representa o lucro médio que o cliente proporciona no período analisado considerando todos os custos associados ao seu ciclo de vida Na verdade o LTV pode ser definido como a receita líquida total que a empresa espera obter de um cliente individual durante todo o período em que ele 59 mantiver sua associação já descontados os custos variáveis incorridos para atender às suas necessidades Na visão de Zhang et al 2022 o cálculo do LTV deve considerar essencialmente três fatores a margem de contribuição a taxa de retenção e a taxa de desconto Primeiramente a margem de contribuição representa a receita anual que os clientes geram subtraídas as despesas operacionais diretas para atendêlos Em segundo lugar a taxa de retenção corresponde ao percentual de clientes de um período por exemplo o primeiro ano que se espera que continuem a consumir no período subsequente segundo terceiro ano e assim por diante Por fim a taxa de desconto referese ao custo de capital atual da empresa aplicada para trazer os fluxos de caixa futuros a valor presente refletindo o valor do dinheiro no tempo A seguir é apresentada a fórmula para o cálculo do LTV LTRL 1 C Onde a taxa de churn é dada por CP I Substituindo a fórmula da taxa de churn na fórmula do Lifespan temos LTRL I P I Simplificando a fórmula do Lifespan tornase LTRL I P onde L é o Lifespan ou tempo de vida útil esperado do cliente C é a Churn Rate ou taxa de churn dos clientes 61 P é o número de Clientes Perdidos durante o período I é o número total de Clientes Iniciais no início do período A partir da compreensão dessas fórmulas e dos conceitos de LTV e LTR verificase que o cálculo dessas métricas é fundamental para entender a viabilidade do negócio e é essencial para a tomada de decisões estratégicas Entretanto é importante ressaltar que nenhuma métrica quando analisada isoladamente oferece todas as informações necessárias para uma compreensão completa do cenário de negócios A análise conjunta de LTV LTR e CAC proporciona uma visão mais holística e acionável 23 SEGMENTAÇÃO DE CLIENTES B2B A segmentação de clientes no ambiente B2B BusinesstoBusiness constitui uma prática estratégica fundamental para organizações que almejam direcionar de forma mais eficaz seus recursos de marketing vendas e atendimento Diferentemente do contexto B2C BusinesstoConsumer em que a segmentação frequentemente utiliza critérios demográficos e comportamentais de consumidores individuais o B2B apresenta maior complexidade exigindo abordagens multidimensionais que considerem entre outros fatores a lucratividade potencial do cliente a previsibilidade de relacionamento a longo prazo o alinhamento estratégico com os produtos ou serviços ofertados bem como indicadores quantitativos como o Lifetime Value LTV e o Custo de Aquisição de Clientes CAC KOTLER KELLER 2016 A análise segmentada da base de clientes quando orientada por dados e fundamentada em modelos analíticos permite identificar perfis empresariais com maior probabilidade de gerar retorno financeiro ao longo do tempo além de favorecer decisões como a priorização de esforços comerciais a personalização de ofertas e a reavaliação de investimentos em marketing e suporte O ambiente B2B é marcado por características como o ciclo de vendas mais longo o envolvimento de múltiplos tomadores de decisão negociações 61 personalizadas contratos de valor elevado e menor volume de transações Diante desse cenário adotar uma estratégia de segmentação eficiente é imperativo para o sucesso organizacional Segundo Kumar 2018 empresas que adotam práticas de segmentação com base no valor do cliente apresentam resultados superiores em rentabilidade e fidelização além de reduzirem significativamente os custos relacionados à aquisição e retenção Ademais a segmentação permite a personalização das comunicações produtos e propostas de valor adaptandoas às necessidades específicas de cada grupo de clientes Essa customização impulsiona a retenção e reduz a taxa de evasão churn conforme demonstrado por Pollak 2021 ao indicar que a eficácia das ações de marketing personalizadas pode ser ampliada em até 30 com o uso de segmentações orientadas por dados 231 Critérios Relevantes para a Segmentação B2B A literatura especializada identifica uma gama de critérios que podem ser utilizados no processo de segmentação B2B A escolha desses critérios depende em grande parte dos objetivos do negócio do tipo de produto ou serviço oferecido e do nível de maturidade analítica da empresa Os critérios podem ser agrupados em três grandes categorias financeiros comportamentais e estratégicos 2311 Critérios Financeiros Os critérios financeiros são essenciais para identificar clientes que geram maior valor econômico Dentre os principais destacamse Faturamento anual da empresa cliente Margem de lucro média por transação Custo de aquisição por canal de entrada 63 Pontualidade nos pagamentos e risco de inadimplência ZHANG et al 2022 Tais variáveis são particularmente úteis quando integradas ao cálculo do Lifetime Value LTV pois fornecem insumos para estimar o retorno financeiro que um cliente pode gerar durante seu relacionamento com a organização 2312Critérios Comportamentais Os critérios comportamentais analisam o histórico de interação entre a empresa e seus clientes e são especialmente úteis para a personalização de estratégias Incluem Frequência de compras e recorrência de pedidos Tempo médio de relacionamento com a empresa Engajamento com canais de comunicação e suporte técnico Respostas a campanhas de marketing anteriores DAHANA et al 2019 Esses dados podem ser extraídos de sistemas de CRM e plataformas de automação de marketing fornecendo uma visão dinâmica do comportamento do cliente ao longo do tempo 2313 Critérios Estratégicos Os critérios estratégicos avaliam o potencial de um cliente para contribuir com o crescimento futuro da empresa fornecedora São exemplos Potencial de expansão da conta upsellcrosssell Aderência aos produtos ou serviços ofertados 63 Sinergia cultural e estratégica entre as empresas Posicionamento da empresa cliente dentro de seu próprio mercado KANCHANAPOOM CHONGWATPOL 2022 Estes critérios embora mais qualitativos podem ser operacionalizados a partir de escalas de avaliação interna ou entrevistas com executivos da área comercial 232 TÉCNICAS QUANTITATIVAS PARA SEGMENTAÇÃO B2B Com a digitalização dos processos e o crescimento do volume de dados disponíveis surgiram metodologias mais robustas e automatizadas de segmentação A aplicação de técnicas de ciência de dados especialmente de machine learning permite o agrupamento de clientes com base em padrões ocultos que nem sempre são perceptíveis por métodos tradicionais Clusterização Técnicas como Kmeans DBSCAN e hierarquias de aglomeração são amplamente utilizadas para a criação de segmentos homogêneos de clientes O algoritmo Kmeans por exemplo é eficaz na formação de clusters com base em distância euclidiana entre variáveis normalizadas sendo ideal para grandes volumes de dados estruturados HAN KAMBER PEI 2011 1 Modelos Supervisionados Modelos como Random Forest Gradient Boosting e Redes Neurais Artificiais são indicados para previsão de LTV churn ou propensão de compra Esses modelos treinam classificadores com base em variáveis históricas para prever o comportamento futuro de clientes BAUER JANNACH 2021 Análise Fatorial A análise fatorial permite a redução da dimensionalidade de conjuntos de dados com muitas variáveis correlacionadas identificando fatores latentes que influenciam o comportamento do cliente É amplamente utilizada em estudos de comportamento organizacional HAIR et al 2009 Processos KDD e CRISPDM 65 A aplicação das etapas do processo de Knowledge Discovery in Databases KDD e do modelo CRISPDM Cross Industry Standard Process for Data Mining estrutura o projeto de segmentação em fases compreensão do negócio exploração e preparação dos dados modelagem avaliação e implantação FAYYAD et al 1996 Tais abordagens asseguram que a segmentação esteja alinhada aos objetivos estratégicos e operacionais da organização 233 Desafios Atuais e Perspectivas Futuras Embora as técnicas analíticas estejam cada vez mais acessíveis a segmentação B2B ainda enfrenta obstáculos consideráveis Fragmentação dos dados entre diferentes sistemas legados ERP CRM BI Baixa qualidade ou incompletude dos dados que compromete os resultados da modelagem Falta de integração entre as áreas de marketing vendas e TI que dificulta a implantação de estratégias baseadas nos segmentos Mudanças rápidas no comportamento dos clientes especialmente em cenários de crise como observado no período póspandemia LI et al 2022 Como tendência observase a adoção de sistemas de segmentação dinâmica com base em inteligência artificial e análise em tempo real O uso de algoritmos de deep learning redes neurais convolucionais e análise de sentimentos em interações textuais emails chats reuniões virtuais tem permitido uma visão mais precisa da jornada do cliente B2B SU et al 2023 HUANG RUST 2020 A segmentação de clientes no ambiente B2B tem evoluído de abordagens empíricas para modelos matematicamente fundamentados e orientados por dados A utilização de métricas como LTV e CAC em conjunto com algoritmos de machine learning permite a construção de segmentos altamente eficazes na maximização do 65 valor do cliente A abordagem datadriven possibilita estratégias mais personalizadas eficientes e rentáveis que se traduzem em maior competitividade e sustentabilidade para as organizações Dessa forma a compreensão aprofundada dos critérios de segmentação o domínio das técnicas de análise de dados e a integração entre áreas estratégicas são pilares fundamentais para o sucesso das estratégias comerciais no cenário B2B contemporâneo Estudos futuros devem considerar a evolução dos modelos de inteligência artificial generativa bem como a integração de dados não estruturados como voz texto e imagem na análise preditiva de valor e comportamento dos clientes 67 3 TRABALHOS CORRELATOS A segmentação de clientes e a gestão de seu valor são temas cruciais na literatura de marketing e gestão Kotler e Keller 2006 defendem que uma empresa não deve perseguir e satisfazer indiscriminadamente todos os clientes mas sim focar naqueles que são lucrativos Eles definem um cliente lucrativo como uma pessoa família ou empresa cujas receitas ao longo da vida excedem em um valor aceitável os custos da empresa para atrair vender e atender esse cliente Esse excedente de valor é conhecido como Valor do Tempo de Vida do Cliente ou LTV Lifetime Value Nesse sentido a capacidade de identificar e gerenciar clientes de alto valor é um pilar da estratégia empresarial moderna A relevância do LTV para a tomada de decisões operacionais estratégicas é amplamente corroborada por diversos estudos recentes incluindo os de Pollak 2021 Zhang et al 2022 Li et al 2022 Afiniti 2022 e Su et al 2023 que abordam a soma dos benefícios econômicos gerados pelas interações do cliente ao longo de sua vida útil Kanchanapoon e Chongwatpol 2022 apresentaram um modelo baseado no LTV que auxilia diretamente na tomada de decisões de marketing Os autores estudaram a indústria de medicina complementar e alternativa onde dada a natureza específica do mercado a manutenção de relacionamentos duradouros com os clientes é de suma importância Os clientes foram divididos em quatro grupos distintos conforme ilustrado na Figura 08 Este modelo serve como um indicador preditivo para identificar grupos de clientes que gerarão mais valor ao longo do tempo reforçando a importância de estratégias de marketing direcionadas e personalizadas Através da análise do gráfico é possível definir estratégias como a construção ou o aumento do relacionamento com clientes a preservação do relacionamento existente a maximização do retorno sobre o relacionamento com posterior descontinuação ou o abandonoencerramento de relacionamentos de baixo valor Figura 4 Proposta de segmentação de clientes baseado no valor ao longo da sua vida e na sua lealdade à marca 67 Fonte Adaptado pelo autor Afiniti 2022 diz que estimar o valor LTV é extremamente importante para tomar melhores decisões de negócios O modelo flexível de riscos proporcionais proposto permite uma estimativa do valor vitalício em configurações contratuais Essa abordagem tira proveito de um modelo de churn que se supõe estar disponível Para Su et al 2023 a estimativa precisa do LTV que reflete o consumo potencial de um usuário durante um período é crucial para o gerenciamento de receita das plataformas de publicidade online No entanto prever o LTV em aplicações do mundo real não é uma tarefa fácil pois os dados de consumo do usuário geralmente são insuficientes dentro de um domínio específico Para resolver esse problema os autores discutiram uma nova estrutura adaptativa entre domínios CDAF para alavancar dados de consumo de diferentes domínios O método proposto é capaz de mitigar simultaneamente o problema de escassez de dados e o problema de gap de distribuição causado por dados de diferentes domínios Para ser específico esse método primeiro aprende um modelo de previsão de LTV de uma plataforma diferente mas relacionada com fornecimento de dados suficiente Zhang et al 2022 destacam que como uma medida da contribuição de longo prazo produzida pelos clientes em um relacionamento de serviço ou produto o LTV pode ajudar a determinar de forma mais abrangente a estratégia ideal para a entrega do serviço No entanto é um desafio abstrair com precisão o LTV modelálo 69 de forma razoável e encontrar a solução ideal As teorias atuais não podem expressar com precisão o LTV por causa da estrutura de modelagem única ou não há solução eficiente Propõese um método geral de modelagem de LTV que resolve o problema de que a contribuição de longo prazo dos clientes é difícil de quantificar enquanto os métodos existentes como a modelagem da taxa de cliques perseguem apenas a contribuição de curto prazo Ao mesmo tempo também se propõe uma solução de programação dinâmica rápida baseada em um método de bisseção mutado e na hipótese de experimentos repetidos sem memória Pollak 2021 destaca que prever as compras futuras do cliente e o valor da vida útil é uma métrica importante para gerenciar campanhas de marketing e otimizar os gastos com marketing Essa tarefa é especialmente desafiadora quando as relações entre o cliente e a empresa são de natureza não contratual e portanto as compras futuras precisam ser previstas com base principalmente nas compras históricas Este trabalho compara duas abordagens para prever as compras futuras do cliente primeiro usando um modelo estatístico compre até morrer para prever o comportamento do cliente e depois usando uma rede neural no mesmo conjunto de dados e comparando os resultados Essa comparação levará a análises quantitativas e qualitativas desses dois métodos bem como recomendações sobre como proceder em diferentes casos Bauer e Jannach 2021 introduziram métodos inovadores para melhorar a previsão do LTV Os autores propuseram a i utilização de redes neurais recorrentes RNNs onde procurase capturar padrões temporais nas interações entre clientes e produtos ao longo do tempo ii utilização de modelos de atenção Attention Models que são uma extensão das redes neurais que permitem focar em partes específicas da realização de uma tarefa iii préprocessamento de dados avançado proposto pelos autores para lidar com os desafios específicos nas interações clienteproduto como tratamento de dados ausentes normalização de dados e codificação de dados categóricos iv Modelo de aprendizado de sequência para sequencia Seq2Seq capaz de capturar as interações temporais complexas entre os clientes e produtos ou serviços ao longo do tempo levando em consideração a sequência de eventos históricos v Combinação de modelos baseados em características FeatureBased e Seq2Seq no qual os autores propuseram a combinação de dois modelos aproveitando os pontos fortes de cada um e não 69 depender exclusivamente de um único modelo Todos esses modelos têm por objetivo melhorar a precisão das previsões de LTV Segundo Li et al 2022 a previsão do LTV em plataformas digitais com bilhões de usuários é uma tarefa desafiadora dadas a complexidade e diversidade de dados A solução desenvolvida pelos autores para uma empresa de tecnologia chinesa com uma base de bilhões clientes contou com metodologias avançadas de análise de dados machine learning e inteligência artificial incluindo o uso de algoritmos de aprendizado análise de dados em tempo real modelagem de séries temporais e outras técnicas Olnén 2022 diz que a precisão do LTV é fundamental para empresas que buscam otimizar duas estratégias de relacionamento e maximizar a rentabilidade de longo prazo O autor utiliza técnicas avançadas de aprendizado de máquina especialmente redes neurais profundas para capturar a complexidade e as nuances no comportamento dos clientes Esses modelos são capazes de aprender padrões complexos nos dados históricos de interação com os clientes como frequência de compras valor das transações engajamento com o serviço etc Olnén 2022 oferece uma compreensão abrangente do LTV futuro dos clientes permite que as empresas avaliem o retorno sobre o investimento em marketing e pode fornecer uma ferramenta útil ao determinar o valor de uma empresa Além disso as previsões de LTV permitem que os profissionais de marketing segmentem os clientes com base no LTV previsto e por sua vez aloquem efetivamente recursos de marketing para aquisição retenção e venda cruzada Dada a distribuição de cauda pesada do LTV avaliouse o desempenho preditivo do modelo a partir de dois aspectos discriminação e calibração A discriminação de modelos avalia a capacidade de um modelo de diferenciar clientes de alto valor daqueles de baixo valor A calibração do modelo mede o quão próximo os valores de previsão correspondem aos valores do rótulo No entanto esse processo de avaliação pode ser demorado e consumir muitos recursos devido ao processo manual de ponderação das duas medidas Com base na análise conjecturase que a discriminação do modelo é ponderada 19 vezes mais do que a calibração do modelo No trabalho relacionado também se observa uma falta de informações sobre como as medidas de precisão melhoram à medida que o período dos dados históricos aumenta 71 Jasek et al 2019 afirmam que a seleção de um modelo LTV adequado é uma questão fundamental para empresas que estão introduzindo uma abordagem gerencial de LTV em suas lojas de relacionamento B2C online O ambiente de varejo online coloca os modelos de LTV em vários pressupostos específicos como relacionamento não contratual compra contínua a qualquer momento e ambiente de gastos variáveis O artigo se concentra na análise estatística empírica e nas habilidades preditivas de modelos LTV probabilísticos selecionados que mostram resultados muito bons em um ambiente de varejo online em comparação com diferentes famílias de modelos Para comparação foram selecionados onze modelos de LTV A dinâmica do comércio eletrônico impõe às empresas a necessidade de entender profundamente LTV de seus clientes para sustentar decisões estratégicas e operacionais efetivas especificamente no ambiente de compras online Win e Bo 2020 dizem que a segmentação de clientes baseada no LTV é uma prática essencial no marketing moderno permitindo que as empresas identifiquem e priorizem grupos de clientes de acordo com seu valor financeiro potencial Os autores empregam o algoritmo Random Forest para prever a classe de clientes com base em seu LTV demonstrando a aplicabilidade de métodos de aprendizado de máquina em estratégias de marketing e gestão de clientes O modelo proposto pelos autores prevê a classe de clientes do próximo ano com base em seu LTV o que ajuda o varejista online a decidir qual cliente deve investir para obter CRM de longo prazo Dahana et al 2019 afirmam que a compreensão do LTV é essencial para o desenvolvimento de estratégias de marketing eficazes especialmente em setores de alta dinamicidade como o varejo de moda online Este estudo explorou como o estilo de vida pode explicar os valores heterogêneos LTV entre vários segmentos de mercado Desenvolveuse um modelo de classe latente de frequência de compra duração da vida útil e valor da compra para inferir o LTV no nível do segmento Presumiuse que a adesão dos clientes a cada segmento depende de seus padrões de estilo de vida O modelo proposto foi então aplicado aos dados de transações e estilo de vida dos clientes em um mercado de varejo de moda online proporcionando uma perspectiva inovadora sobre como as preferências e comportamentos individuais influenciam o valor de longo prazo dos clientes 71 Para Dahans et al 2019 o LTV pode ser definido como o valor total que a empresa espera obter de um único cliente durante todo o período em que este mantém seu relacionamento com a empresa levando em conta a receita líquida após subtrair os custos variáveis incorridos para atender às necessidades desse cliente Para Burelli 2019 à medida que as empresas de jogos adotam cada vez mais um modelo de negócios orientado a serviços a necessidade de modelos preditivos de jogadores se torna mais premente Múltiplas atividades como aquisição de usuários operações de jogos ao vivo ou design de jogos precisam ser suportadas com informações sobre as escolhas feitas pelos jogadores e as escolhas que eles podem fazer no futuro Isso é especialmente verdadeiro no contexto de jogos F2P freetoplay onde a ausência de uma parede de pagamento e a natureza errática do comportamento de jogo e gastos dos jogadores tornam as previsões sobre a receita e alocação de orçamento e recursos extremamente desafiadoras Wu et al 2023 dizem que a previsão do LTV pode ajudar os provedores de serviços a otimizar suas políticas de marketing em aplicativos centrados no cliente No entanto a forte escassez de eventos de consumo e a interferência da variação de dados e do ruído obstruem a estimativa do LTV Muitos métodos existentes de previsão de LTV treinam diretamente um preditor de LTV de visão única em amostras de consumo o que pode resultar em extração de conhecimento imprecisa e até tendenciosa Neste artigo os autores propuseram uma estrutura de multivisualização contrastiva para previsão de LTV que é uma solução PnP plug andplay compatível com vários modelos de backbone Ele sintetiza vários regressores LTV heterogêneos com conhecimento complementar para melhorar a robustez do modelo e captura o parentesco da amostra por meio do aprendizado contrastivo para mitigar a dependência da abundância de dados Wang et al 2019 modelaram a distribuição do LTV com base em características associadas utilizando uma mistura de massa de ponto zero e uma distribuição lognormal denominada distribuição lognormal inflada de zero ZILN Essa abordagem de modelagem permite capturar a probabilidade de rotatividade e ao mesmo tempo considerar a natureza de cauda pesada do LTV Além disso ela produz uma quantificação direta da incerteza na previsão pontual A perda de ZILN 73 pode ser aplicada tanto em modelos lineares quanto em redes neurais profundas DNN Para a avaliação do modelo utilizouse o coeficiente de Gini normalizado para quantificar a discriminação do modelo e gráficos decil para avaliar a calibração do modelo Empiricamente se demonstrou o desempenho preditivo do modelo proposto em dois conjuntos de dados públicos do mundo real Cao et al 2023 consideram problemas de otimização de sortimento quando os clientes escolhem sob uma mistura de modelos de demanda independente e logit multinomial Na configuração de otimização de sortimento cada produto tem uma receita fixa associada a ele Os clientes escolhem entre os produtos de acordo com nosso modelo de escolha de mistura O objetivo é encontrar um sortimento que maximize a receita esperada de um cliente Os autores mostraram que é possível encontrar o sortimento ótimo resolvendo um programa linear Estabeleceram que o sortimento ótimo se torna maior à medida que aumenta o tamanho relativo do segmento de clientes com o modelo de demanda independente 73 3 METODOLOGIA 31 TIPO DE PESQUISA Este trabalho apresenta o desenvolvimento de uma metodologia prática para segmentar clientes em empresas que atuam no mercado B2B com foco especial na prestação de serviços de cobrança mas aplicável também a outros setores como tecnologia consultoria engenharia e indústria Segundo Kotler e Keller 2012 compreender o comportamento dos clientes e agrupálos em segmentos coerentes é essencial para otimizar recursos e maximizar o retorno sobre investimentos em marketing e vendas A proposta central consiste em utilizar técnicas de análise de dados e agrupamento clusterização para classificar os clientes em grupos que compartilham características comuns como nível de faturamento quantidade de funcionários e desempenho geral De acordo com Fayyad et al 1996 a aplicação de metodologias de mineração de dados no contexto do processo de Descoberta de Conhecimento em Bases de Dados KDD permite transformar grandes volumes de informações brutas em conhecimento estratégico para o negócio Essa organização em clusters possibilita que a equipe comercial compreenda melhor o perfil de cada grupo definindo estratégias mais eficientes de abordagem prospecção e retenção conforme defendem Tan Steinbach e Kumar 2019 Como resultado esperase contribuir para a melhoria de indicadores críticos para a área de vendas como a redução do Custo de Aquisição de Clientes CAC e o aumento do tempo de relacionamento e valor gerado por cliente ao longo do tempo conhecido como Lifetime Value LTV KOTLER KELLER 2012 OLIVEIRA 2018 Para atingir esses objetivos foram utilizados dados reais de uma base representativa seguindo todas as etapas do processo KDD desde a seleção limpeza e transformação até a análise estatística e aplicação do algoritmo de clusterização Ao final o trabalho evidencia como a segmentação de clientes pode ser uma ferramenta de apoio à gestão comercial contribuindo para decisões mais fundamentadas em dados e maior rentabilidade no contexto corporativo 75 32 PROCEDIMENTOS METODOLÓGICOS A metodologia proposta fundamentase no processo de Descoberta de Conhecimento em Bases de Dados Knowledge Discovery in Databases KDD estruturado de forma sequencial e iterativa abrangendo as seguintes etapas a Seleção e Coleta dos Dados Serão utilizados dados secundários públicos e acessíveis contendo informações cadastrais e financeiras de empresas brasileiras atuantes no modelo B2B Os critérios de seleção incluirão variáveis compatíveis com as métricas de rentabilidade e relacionamento comercial tais como faturamento anual número de funcionários tempo de operação e histórico de inadimplência b Tratamento e Préprocessamento dos Dados Esta fase contempla Identificação e eliminação de ruídos inconsistências e valores ausentes utilizando técnicas como imputação estatística e exclusão de registros Normalização das variáveis por meio de métodos como MinMax Scaling e ZScore a fim de garantir homogeneidade nas escalas de análise Detecção e tratamento de outliers por meio da análise de boxplots e amplitude interquartil IQR assegurando a robustez dos modelos posteriores c Transformação e Redução de Dimensionalidade A transformação de variáveis será realizada para otimizar a performance dos algoritmos aplicandose técnicas de Análise Fatorial e Análise de Componentes Principais PCA Essas abordagens visam condensar as informações mais relevantes reduzindo a complexidade sem perda significativa de variância explicada d Segmentação de Clientes Para a formação de grupos homogêneos será empregada a técnica de clusterização não supervisionada Kmeans com validação do número ótimo de clusters pelo Método do Cotovelo Elbow e pela Pontuação de Silhueta Silhouette Score Tal abordagem permitirá a identificação de perfis de clientes e leads com características comerciais e financeiras semelhantes 75 e Classificação e Modelagem Preditiva Para estimativa do LTV e previsão de churn serão aplicados algoritmos supervisionados como Árvores de Decisão Random Forest Redes Neurais Artificiais Algoritmos Genéticos AntMiner A escolha dessas técnicas se justifica pela capacidade de lidar com grandes volumes de dados e de identificar padrões complexos e não lineares além da interpretabilidade e alta performance preditiva f Validação dos Segmentos Formados Os clusters serão avaliados em termos de Pureza e uniformidade interna com base na proporção de membros que compartilham características predominantes Diferenciação entre clusters utilizando métricas de distância euclidiana entre centroides Análise de Variância ANOVA e testes de hipóteses Testes T Análise de correlação entre segmentos e variáveis de negócio como LTV CAC e taxa de churn g Interpretação dos Resultados Os resultados obtidos serão analisados de forma a fornecer subsídios para a definição de estratégias comerciais priorização de ações de relacionamento e alocação eficiente de recursos considerando o potencial de rentabilidade de cada segmento 33 FERRAMENTAS E SOFTWARES As etapas de processamento análise e modelagem dos dados serão implementadas em Python utilizando as seguintes bibliotecas e frameworks Pandas e NumPy manipulação de dados e arrays multidimensionais Missingno visualização de valores ausentes Scikitlearn aplicação de algoritmos de clusterização classificação préprocessamento e validação de modelos FactorAnalyzer análise fatorial e extração de componentes principais Matplotlib e Seaborn visualização gráfica 77 AntMiner classificação baseada em algoritmos genéticos 34 LIMITAÇÕES METODOLÓGICAS O estudo apresenta limitações relacionadas à natureza secundária dos dados que podem não refletir a totalidade das especificidades mercadológicas A aplicabilidade dos resultados também está condicionada à estabilidade dos padrões históricos considerando possíveis mudanças nas dinâmicas comerciais e econômicas Além disso há restrições inerentes à interpretabilidade de modelos mais complexos como redes neurais e à possível resistência organizacional à adoção de metodologias baseadas em ciência de dados A base de dados utilizada neste trabalho é o arquivo baseleadsokxlsx que reúne informações reais de empresas que podem ser ou já foram clientes de uma empresa de serviços de cobrança Segundo Han Kamber e Pei 2012 a qualidade e a relevância dos dados de entrada são fatores determinantes para o sucesso de qualquer processo de mineração de dados Esta base foi escolhida porque já estava revisada e organizada o que facilita o tratamento e a análise conforme recomendações de Fayyad et al 1996 sobre a etapa de preparação de dados no ciclo KDD No total a base conta com aproximadamente 1000 registros cada um representando uma empresa distinta Além de informações cadastrais básicas como nome e setor de atuação foram destacadas variáveis de grande relevância para a análise de perfil como o Faturamento FatPres que indica o volume financeiro movimentado e a Quantidade de Funcionários QuantFuncionarios que reflete o porte organizacional Como complementa Kotler e Keller 2012 entender o tamanho e o potencial de consumo de cada cliente é fundamental para segmentações eficazes no ambiente B2B Além dessas variáveis principais a base inclui atributos adicionais como segmento de mercado localização geográfica risco de inadimplência e status de atividade que foram considerados na exploração preliminar ajudando a verificar a coerência dos agrupamentos gerados 77 Optar por trabalhar com uma base real que reflita o contexto de mercado garante que os resultados obtidos tenham aplicação prática Dessa forma os grupos formados por meio da clusterização podem servir como apoio para que a equipe de vendas planeje ações de prospecção abordagem e relacionamento de acordo com o perfil de cada segmento identificado KOTLER KELLER 2012 OLIVEIRA 2018 212 PRÉ PROCESSAMENTO Após a escolha da base de dados foi necessário realizar o pré processamento que é uma etapa fundamental em qualquer projeto de mineração de dados FAYYAD et al 1996 HAN KAMBER PEI 2012 O principal objetivo desta etapa é preparar as informações de forma que os métodos de análise possam operar corretamente produzindo resultados mais confiáveis e coerentes com a realidade A primeira atividade realizada foi a limpeza dos dados que consiste em verificar a qualidade das informações e remover inconsistências erros ou valores ausentes Segundo Han Kamber e Pei 2012 dados incompletos ou imprecisos podem comprometer toda a análise levando a resultados enganosos ou irrelevantes No presente trabalho identificouse que algumas linhas não apresentavam valores em campos críticos como o Faturamento e a Quantidade de Funcionários Para evitar erros nos cálculos e no algoritmo de clusterização todas as linhas com esses campos em branco foram excluídas garantindo que apenas registros completos fossem utilizados A segunda atividade foi a transformação do faturamento utilizando logaritmo Essa técnica é recomendada para lidar com a presença de valores extremos outliers que são comuns em variáveis financeiras onde poucas empresas concentram grande parte do volume monetário TAN STEINBACH KUMAR 2019 Ao aplicar o log reduzse a escala dos dados tornandoos mais homogêneos e facilitando a formação de grupos mais coerentes Essa abordagem é amplamente adotada em estudos de clusterização para evitar que empresas muito grandes distorçam a criação dos clusters HAN KAMBER PEI 2012 79 Por fim foi criada uma nova coluna chamada Desempenho do Cliente que não fazia parte do conjunto original de variáveis De acordo com Kotler e Keller 2012 métricas de desempenho e comportamento são fundamentais para entender o ciclo de vida do cliente e sua contribuição real para o negócio Embora neste estudo o valor do desempenho tenha sido gerado de forma simulada nota de 1 a 10 ele exemplifica como a inclusão de indicadores qualitativos pode enriquecer a segmentação e permitir estratégias mais personalizadas de relacionamento no futuro Assim com as etapas de limpeza transformação e criação de variáveis a base de dados tornouse mais adequada para a aplicação de técnicas de clusterização assegurando maior robustez nos resultados obtidos 213 ANÁLISE ESTATÍSTICA Depois de preparar a base de dados foi realizada uma análise estatística exploratória com o objetivo de compreender em detalhes as informações disponíveis antes de aplicar os métodos de agrupamento De acordo com Han Kamber e Pei 2012 a análise exploratória é uma etapa indispensável na mineração de dados pois possibilita detectar padrões inconsistências e valores atípicos que podem afetar a qualidade dos resultados A primeira ação nesta etapa consistiu no cálculo de medidas descritivas como média mínimo máximo e amplitude para os campos de maior interesse o Faturamento e a Quantidade de Funcionários Fayyad et al 1996 destacam que o resumo estatístico facilita a interpretação de grandes volumes de dados permitindo verificar rapidamente se a distribuição é equilibrada ou se há presença de outliers No presente estudo constatouse que embora a maioria das empresas possua faturamento dentro de uma faixa mais baixa algumas apresentam valores extremamente elevados chegando a cifras bilionárias Essa disparidade justifica a aplicação da transformação logarítmica prática comum em dados financeiros para reduzir a distorção provocada por valores extremos TAN STEINBACH KUMAR 2019 79 A análise descritiva também revelou que a Quantidade de Funcionários varia consideravelmente entre as empresas Essa diversidade de perfis reforça o argumento de Kotler e Keller 2012 de que a segmentação deve considerar múltiplos atributos pois empresas de tamanhos distintos podem demandar abordagens comerciais específicas Outro ponto central da análise exploratória foi examinar a relação entre Faturamento e porte medido pela quantidade de funcionários Para isso utilizouse o coeficiente de correlação de Pearson recomendado por Han Kamber e Pei 2012 para avaliar a força de associação entre variáveis quantitativas O valor obtido em torno de 0043 indica correlação praticamente nula evidenciando que o número de colaboradores não determina diretamente o faturamento Essa constatação é coerente com o ambiente B2B onde empresas enxutas em pessoal podem gerar alta receita como ocorre em tecnologia e consultoria enquanto negócios de serviços operacionais podem ter muitos funcionários mas margem de faturamento mais baixa Para ilustrar esse achado foi construída uma matriz de correlação Figura 1 ferramenta recomendada por Tan Steinbach e Kumar 2019 para representar visualmente a força de relação entre variáveis Na diagonal principal os valores são sempre 1 indicando autocorrelação O valor de 0043 fora da diagonal entre Faturamento e Funcionários reforça de forma visual a ausência de relação direta Essa evidência fundamenta a escolha de usar ambas as variáveis na clusterização pois cada uma agrega uma dimensão diferente ao perfil de cliente permitindo criar grupos mais realistas e úteis para a gestão comercial KOTLER KELLER 2012 81 Figura 1 Matriz de correlação entre Faturamento e Quantidade de Funcionários Essa figura comprova de forma visual que essas duas variáveis Faturamento e Quantidade de Funcionários não possuem uma relação de dependência direta entre si Isso significa que mesmo analisando uma base real de empresas não se pode assumir que uma organização com mais funcionários necessariamente gera mais receita nem o contrário Essa constatação é fundamental para o projeto pois justifica a escolha de manter ambas as variáveis como base para a formação dos clusters alinhandose à recomendação de Han Kamber e Pei 2012 que destacam a importância de considerar múltiplos atributos para capturar diferentes perspectivas de um mesmo fenômeno Ao usar essas duas informações em conjunto no processo de agrupamento o algoritmo consegue identificar nuances distintas do perfil de cada cliente Por exemplo alguns grupos podem ser formados por empresas de alto faturamento e estrutura enxuta como startups de tecnologia enquanto outros podem agrupar organizações com grande número de funcionários mas faturamento 81 proporcionalmente mais modesto cenário comum em setores de serviços operacionais ou de mão de obra intensiva Dessa forma a combinação de Faturamento e Quantidade de Funcionários amplia a capacidade de segmentar a base de clientes em grupos mais realistas e mais relevantes para a definição de estratégias de vendas e relacionamento Esse cuidado reforça o princípio defendido por Kotler e Keller 2012 de que uma análise de dados eficaz considera diferentes dimensões do comportamento do cliente evitando generalizações excessivas que podem comprometer a efetividade das ações comerciais no ambiente B2B 214 MINERAÇÃO DE DADOS Com a base de dados devidamente limpa transformada e explorada estatisticamente foi possível avançar para a etapa de mineração de dados fase central do processo KDD Knowledge Discovery in Databases conforme definido por Fayyad et al 1996 Nesse momento aplicase o método de agrupamento de clientes também conhecido como clustering cujo objetivo é identificar grupos de clientes com características semelhantes facilitando a definição de estratégias de relacionamento e vendas personalizadas HAN KAMBER PEI 2012 Para realizar esse agrupamento foi escolhido o algoritmo KMeans amplamente reconhecido na literatura pela eficiência e simplicidade na segmentação de dados numéricos contínuos TAN STEINBACH KUMAR 2019 O KMeans é um método de clustering não supervisionado ou seja não exige rótulos de classes previamente definidos agrupando os registros com base na similaridade medida pela distância euclidiana formando clusters de forma autônoma HAN KAMBER PEI 2012 Essa característica o torna uma ferramenta poderosa para descobrir padrões ocultos principalmente em bases comerciais onde nem sempre há informações préclassificadas Além de ser conceitualmente simples o KMeans destacase por sua rapidez de execução mesmo em grandes bases de dados e pela facilidade de interpretação dos resultados o que é essencial para equipes comerciais que precisam aplicar os 83 clusters de forma prática sem conhecimentos avançados em estatística TAN STEINBACH KUMAR 2019 Esse equilíbrio entre desempenho e aplicabilidade prática justifica sua popularidade em projetos de segmentação de clientes KOTLER KELLER 2012 Durante o planejamento do trabalho outras técnicas foram avaliadas Por exemplo a Análise Fatorial é indicada para reduzir a dimensionalidade do conjunto de dados agrupando variáveis correlacionadas em fatores principais HAIR et al 2009 No entanto neste projeto o número de variáveis foi mantido propositalmente baixo com foco em Faturamento e Quantidade de Funcionários para garantir clareza e facilitar a interpretação dos clusters dispensando a redução de dimensionalidade Métodos como Árvore de Decisão e Random Forest são recomendados para tarefas de classificação supervisionada em que há interesse em prever um valor alvo conhecido HAN KAMBER PEI 2012 No presente trabalho o objetivo é explorar padrões de semelhança não previsão tornando esses algoritmos menos apropriados para o contexto Já técnicas mais complexas como Colônia de Formigas podem oferecer resultados de alta qualidade em cenários complexos mas requerem maior poder computacional e ajuste fino de parâmetros o que pode inviabilizar seu uso na rotina operacional de uma equipe comercial TAN STEINBACH KUMAR 2019 Diante dessas comparações o KMeans foi escolhido por equilibrar simplicidade velocidade de processamento qualidade de agrupamento e clareza nos resultados Para definir o número ideal de clusters aplicouse o método do cotovelo técnica recomendada por Han Kamber e Pei 2012 que consiste em analisar o ponto de inflexão da curva de inércia intracluster O ponto onde a redução da inércia se torna marginal indica que aumentar a quantidade de clusters não melhora significativamente a qualidade da segmentação Essa análise foi realizada considerando o faturamento na forma original e na forma logarítmica permitindo avaliar o efeito da transformação na distribuição dos dados A Figura 2 apresenta o gráfico do método do cotovelo para os valores brutos de Faturamento 83 Figura 2 Gráfico do método do cotovelo para definição do número de clusters dados brutos Observase na Figura 2 que o gráfico do método do cotovelo apresenta uma curva de queda acentuada nos primeiros valores de clusters testados o que é comum em dados com alta variabilidade HAN KAMBER PEI 2012 Essa queda significa que à medida que o número de clusters aumenta o algoritmo consegue agrupar os pontos de forma mais compacta reduzindo a inércia intracluster No entanto a partir de certo ponto essa redução tornase cada vez menos expressiva formando o famoso cotovelo da curva que indica o número de clusters mais apropriado para equilibrar qualidade do agrupamento e simplicidade de interpretação TAN STEINBACH KUMAR 2019 Entretanto como os valores de Faturamento na escala original incluíam outliers muito altos a curva ficou levemente distorcida dificultando a visualização exata do ponto ótimo de corte Esse efeito é descrito por Han Kamber e Pei 2012 como típico em bases com grande amplitude de valores pois os outliers elevam a soma das distâncias dentro dos clusters alongando a curva de inércia Para contornar essa distorção e obter uma visão mais precisa do comportamento dos dados reaplicouse o método do cotovelo usando o Faturamento transformado por logaritmo técnica recomendada para compressão de escalas numéricas amplas e atenuação de valores extremos TAN STEINBACH KUMAR 2019 A Figura 3 mostra o resultado desse segundo teste 85 Notase que a curva logarítmica apresenta uma inclinação mais suave e um ponto de cotovelo mais claro permitindo ao analista definir o número ideal de clusters com maior confiança Essa etapa foi fundamental para garantir que o agrupamento refletisse diferenças reais de porte e potencial financeiro entre as empresas sem distorções provocadas por valores fora do padrão da maioria Figura 3 Gráfico do método do cotovelo com transformação logarítmica do Faturamento É possível perceber que após a aplicação do logaritmo no Faturamento a curva do método do cotovelo tornouse visivelmente mais suave eliminando a distorção causada pelos valores extremamente altos de algumas empresas Esse tipo de transformação é recomendado por Tan Steinbach e Kumar 2019 justamente para lidar com escalas muito amplas em dados financeiros permitindo uma análise mais precisa e equilibrada Com isso o ponto de inflexão que marca o número ideal de clusters ficou mais destacado e de fácil identificação aumentando a robustez na definição dos grupos HAN KAMBER PEI 2012 85 Além de utilizar o método do cotovelo para sustentar a escolha do número de clusters é uma boa prática complementar essa análise com gráficos de dispersão que permitem visualizar intuitivamente como os clientes se distribuem em relação às variáveis principais neste caso Faturamento e Quantidade de Funcionários Segundo Han Kamber e Pei 2012 a representação gráfica de dados é uma ferramenta indispensável para validar agrupamentos pois mostra como os pontos se agrupam ou se afastam facilitando a interpretação técnica e a comunicação de resultados a gestores sem formação estatística A Figura 4 apresenta o gráfico de dispersão utilizando o Faturamento na escala original Notase uma grande concentração de pontos próximos da origem do eixo de Faturamento enquanto alguns se afastam muito à direita representando empresas com faturamentos muito acima da média Esse contraste comprime a visualização da maioria dos clientes dificultando a leitura dos grupos reais Para resolver essa limitação foi construído um segundo gráfico de dispersão com o Faturamento transformado em logaritmo conforme orientações de Tan Steinbach e Kumar 2019 para análises de clusterização em bases com alta assimetria O resultado mostrado na Figura 5 evidencia uma distribuição mais homogênea dos pontos permitindo observar com maior clareza como os clusters se formam no espaço bidimensional Essa abordagem confirma de forma visual que a transformação logarítmica não apenas melhora o método do cotovelo mas também contribui para que a análise de agrupamento produza grupos mais bem definidos coerentes e alinhados à realidade de negócios 87 Figura 4 Distribuição dos clusters considerando Faturamento original e Quantidade de Funcionários Observase na Figura 4 que muitos pontos ficam fortemente concentrados próximos ao valor zero no eixo de Faturamento enquanto apenas um pequeno número de empresas se posiciona mais à direita indicando valores de faturamento extremamente altos Esse tipo de distribuição desigual é comum em bases de dados de negócios onde algumas grandes contas concentram grande parte da receita enquanto a maioria das empresas possui faturamento muito inferior HAN KAMBER PEI 2012 Essa concentração de outliers compromete a visualização pois comprime a maioria dos dados em um espaço muito pequeno do gráfico dificultando a identificação de perfis distintos TAN STEINBACH KUMAR 2019 Para resolver essa distorção e obter uma visão mais clara dos agrupamentos foi aplicada a transformação logarítmica no Faturamento estratégia recomendada na literatura para lidar com variáveis altamente assimétricas e reduzir a influência de valores extremos TAN STEINBACH KUMAR 2019 O resultado pode ser visualizado na Figura 5 notase que os pontos passam a se distribuir de forma mais equilibrada ao longo do eixo de Faturamento espalhandose de forma uniforme pelo gráfico Esse ajuste torna mais evidente a separação natural dos 87 clusters pois o algoritmo KMeans consegue calcular distâncias mais realistas formando grupos que realmente representam características similares de porte e receita Além disso para o público não técnico o gráfico com o Faturamento em escala logarítmica facilita a interpretação visual atuando como um argumento claro para justificar as escolhas de préprocessamento conforme recomenda Han Kamber e Pei 2012 Em resumo a comparação entre a Figura 4 dispersão com Faturamento original e a Figura 5 dispersão com Faturamento logarítmico comprova que a transformação aplicada foi essencial para melhorar tanto a qualidade técnica da clusterização quanto a clareza na comunicação dos resultados atendendo aos objetivos de segmentar os clientes com mais precisão e eficiência Figura 5 Distribuição dos clusters considerando Faturamento transformado em log e Quantidade de Funcionários Esses gráficos de dispersão comprovam de forma clara que a combinação do algoritmo KMeans com a transformação logarítmica do Faturamento é uma estratégia altamente eficaz para segmentar clientes em grupos mais homogêneos 89 equilibrando a distribuição dos dados e revelando padrões que seriam mascarados por valores extremos HAN KAMBER PEI 2012 TAN STEINBACH KUMAR 2019 A aplicação conjunta dessas técnicas assegura que o agrupamento final represente com maior fidelidade a diversidade real dos perfis de clientes evidenciando de forma justa tanto pequenas empresas quanto grandes contas estratégicas De acordo com Kotler e Keller 2012 a clareza na definição de segmentos é crucial para que as equipes de vendas e marketing alinhem suas ações ao potencial de cada grupo maximizando o retorno sobre o investimento comercial Além disso a apresentação visual facilita o entendimento dos resultados por gestores e equipes não técnicas tornando a segmentação uma ferramenta prática de suporte ao planejamento de vendas à personalização de ofertas e à alocação eficiente de recursos KOTLER KELLER 2012 Com isso garantese que o esforço comercial seja direcionado prioritariamente para os clusters de maior potencial de receita e relacionamento de longo prazo alinhando o uso de dados com a estratégia de negócios da empresa 215 SIMULAÇÃO DE MÉTRICAS DE NEGÓCIO Para complementar a análise técnica dos clusters e estabelecer uma conexão direta entre a segmentação de clientes e indicadores estratégicos do negócio foi realizada uma simulação prática de duas métricas amplamente utilizadas na gestão comercial de empresas B2B o Custo de Aquisição de Clientes CAC e o Lifetime Value LTV KOTLER KELLER 2012 O LTV representa o valor que cada cliente tende a gerar para a empresa ao longo de todo o relacionamento comercial sendo uma métrica central para avaliar a lucratividade de contas individuais ou segmentos de clientes KOTLER KELLER 2012 Para esta simulação foi adotada uma abordagem simplificada considerando o LTV proporcional ao Faturamento histórico de cada empresa aplicandose um fator de 120 para refletir renovações de contrato upsells e crosssells típicos de negócios B2B com relacionamentos de longo prazo STONE WOODCOCK 2014 89 Essa prática é recomendada quando não há dados históricos detalhados de tempo de permanência ou taxa de churn disponíveis Já o CAC foi estimado como uma média aproximada dos custos necessários para atrair e converter cada cliente englobando despesas com marketing deslocamentos horas de equipe comercial e produção de propostas alinhandose ao conceito descrito por Kotler e Keller 2012 de que o CAC deve considerar todos os investimentos necessários ao fechamento de uma venda consultiva Com essas duas métricas simuladas para cada cliente foi possível calcular a média de CAC e LTV por cluster oferecendo uma visão clara de quais grupos apresentam o melhor equilíbrio entre retorno financeiro e custo de aquisição Essa comparação é fundamental para identificar clientes de alto valor e baixo custo de conquista maximizando a eficiência dos investimentos em marketing e vendas STONE WOODCOCK 2014 A Figura 6 apresenta o gráfico de dispersão que ilustra a relação entre o CAC médio e o LTV médio de cada cluster Cada ponto no gráfico representa um cluster distinto cuja posição revela o custo médio para conquistar os clientes daquele grupo e o valor médio que eles retornam ao longo do tempo Essa visualização permite identificar rapidamente quais clusters são mais atraentes combinando alto LTV com CAC controlado além de sinalizar grupos de menor retorno que podem ser atendidos por canais automatizados ou estratégias de baixo custo Essa análise integrada de métricas de negócio fecha o ciclo da segmentação orientada à lucratividade fornecendo uma base prática para planejar ações de prospecção retenção crosssell e upsell priorizando os clientes que oferecem maior retorno sobre o investimento comercial KOTLER KELLER 2012 91 Figura 6 Relação entre CAC e LTV médios por cluster Observase a partir da Figura 6 que alguns clusters se destacam por apresentar um LTV médio consideravelmente mais alto mesmo mantendo um CAC dentro da faixa média geral dos grupos Esse comportamento confirma a lógica apontada por Kotler e Keller 2012 de que clientes de alto valor tendem a compensar os custos de aquisição por meio de compras recorrentes upgrades e maior fidelidade Na prática isso significa que esses clusters reúnem empresas mais estratégicas justificando investimentos maiores em prospecção personalizada visitas presenciais e programas de retenção de longo prazo Por outro lado também é possível identificar clusters em que o LTV médio é visivelmente mais baixo enquanto o CAC se mantém em nível próximo ao dos grupos mais rentáveis De acordo com Stone e Woodcock 2014 esse desalinhamento é um risco comum em operações B2B dedicar tempo e recursos para contas com baixo retorno compromete a eficiência comercial e eleva o custo total de vendas sem gerar receita proporcional Essa leitura prática do gráfico permite que a área comercial estabeleça prioridades de atendimento mais racionais criando planos de ação diferenciados para cada cluster conforme recomenda Kotler e Keller 2012 Por exemplo grupos com alto LTV e CAC controlado podem ser acompanhados por executivos de contas dedicados e pacotes personalizados reforçando a fidelização Já os clusters de baixo LTV podem ser atendidos com automação de propostas suporte digital e 91 menos visitas presenciais reduzindo o custo operacional sem comprometer a cobertura de mercado Assim a análise conjunta de CAC e LTV por cluster não apenas valida a qualidade técnica da segmentação mas traduz os resultados em informações estratégicas de aplicação imediata apoiando decisões para maximizar o retorno sobre o investimento comercial reduzir desperdícios e aumentar a lucratividade da carteira de clientes como um todo STONE WOODCOCK 2014 93 RESULTADOS Após o processamento dos dados e a aplicação do algoritmo KMeans o conjunto de clientes foi segmentado em cinco clusters bem definidos cada um com perfis financeiros e operacionais distintos Essa segmentação revelou padrões valiosos para orientar decisões de priorização de clientes definição de pacotes de serviços e planejamento do relacionamento de longo prazo conforme destacado por Stone e Woodcock 2014 que enfatizam a importância de usar agrupamentos para personalizar estratégias de retenção e fidelização O Cluster 0 se destaca como o grupo de maior faturamento e maior LTV superando 63 bilhões de reais de receita média com um LTV projetado de aproximadamente 756 bilhões de reais O CAC médio para conquistar ou manter esses clientes é de cerca de R 307844 praticamente igual ao dos clusters menores Esse dado confirma o conceito de alto retorno sobre investimento onde contas estratégicas justificam esforços de relacionamento próximo KOTLER KELLER 2012 Assim o time comercial deve priorizar esse cluster com atendimento consultivo pacotes personalizados e estratégias de fidelização premium Em contraste o Cluster 1 reúne empresas de baixo faturamento com média de apenas 34 milhões de reais e LTV de cerca de 41 milhões de reais mas com CAC muito próximo ao do Cluster 0 R 305060 Esses clientes têm em média 83 funcionários indicando operações pequenas Segundo Kotler e Keller 2012 para contas de baixo valor estratégias automatizadas e de menor custo operacional são essenciais para manter a rentabilidade O Cluster 2 apresenta comportamento semelhante ao Cluster 1 com faturamento médio de 338 milhões de reais LTV de 406 milhões de reais e CAC de R 288247 Entretanto essas empresas têm porte maior 284 funcionários em média sugerindo estruturas mais operacionais e margens modestas Para públicos assim Stone e Woodcock 2014 recomendam automação de propostas e vendas em massa limitando o envolvimento de equipes de campo 93 O Cluster 3 representa um perfil intermediário faturamento médio de 156 milhões de reais LTV de 187 milhões e o CAC mais baixo entre todos R 281356 Com uma média de 1082 funcionários destacase pelo maior porte operacional Essa combinação reforça que contas com processos internos mais robustos tendem a permanecer mais tempo na base justificando programas de crosssell e suporte contínuo KOTLER KELLER 2012 O Cluster 4 mostra um perfil médio com faturamento de 196 milhões de reais LTV de 235 milhões e CAC de R 305990 com estrutura mais enxuta 203 funcionários Esse grupo pode ser explorado com pacotes modulares e escaláveis maximizando margem e flexibilidade STONE WOODCOCK 2014 A comparação entre todos os clusters destaca um princípio central grupos de alto LTV e CAC controlado devem ser priorizados pois oferecem maior retorno por esforço investido Já clusters de baixo LTV com CAC similar devem ser atendidos com processos mais automatizados evitando desperdício de recursos KOTLER KELLER 2012 Além disso como confirmado na matriz de correlação o número de funcionários não possui relação direta com o faturamento reforçando que uma segmentação robusta precisa combinar múltiplos critérios para captar diferentes dimensões do perfil do cliente Para facilitar o entendimento dos gestores recomendase a apresentação de um quadro resumo consolidando as médias de cada cluster de forma clara e prática para apoiar decisões estratégicas 95 Cluster Faturamento Médio R LTV Médio R CAC Médio R Funcionários Médios 0 630000000 0 75600 00000 307844 233 1 34000000 41000 000 305060 83 2 33800000 40600 000 288247 284 3 156000000 187000 000 281356 1082 4 196000000 235000 000 305990 203 Em síntese os resultados demonstram que a segmentação proposta não apenas organiza os clientes de forma técnica mas também gera insights acionáveis permitindo à empresa priorizar o atendimento personalizar ofertas e otimizar custos de aquisição mantendo uma carteira mais rentável e sustentável Esse alinhamento entre análise de dados e aplicação prática é essencial para que as estratégias de marketing e vendas gerem retorno real como defendem Kotler e Keller 2012 ao destacarem que o sucesso da gestão de clientes depende da capacidade de transformar informações em ações concretas de relacionamento e retenção Além disso Stone e Woodcock 2014 reforçam que o uso de clusterização aliado a métricas de negócio como CAC e LTV é uma das formas mais eficazes de garantir que a segmentação contribua diretamente para o aumento da lucratividade e para a fidelização de contas de maior valor 95 DISUSSÃO A análise realizada neste trabalho evidencia de forma clara como a segmentação de clientes via clusterização contribui significativamente para otimizar o processo de vendas em uma empresa B2B Em mercados corporativos onde os ciclos de venda são longos e o custo de aquisição de cada cliente é elevado entender o perfil exato de cada grupo é fundamental para aplicar recursos comerciais de forma assertiva maximizando o retorno sobre investimento e minimizando desperdícios KOTLER KELLER 2012 Ao agrupar clientes em clusters com características semelhantes a equipe comercial consegue visualizar rapidamente quais contas têm maior potencial de receita e estabilidade como evidenciado pelo Cluster 0 que apresentou faturamento e LTV muito superiores sem exigir um CAC proporcionalmente maior Segundo Stone e Woodcock 2014 esse tipo de segmentação inteligente viabiliza estratégias diferenciadas para cada perfil permitindo uso mais eficiente de visitas presenciais pacotes escaláveis suporte técnico ajustado e propostas sob medida Um aspecto importante revelado por este estudo é que a clusterização não deve ser um processo estático De acordo com Han Kamber e Pei 2012 o dinamismo do mercado exige que os modelos de segmentação sejam periodicamente recalibrados pois uma pequena empresa hoje pode crescer e se tornar estratégica enquanto uma grande conta pode reduzir sua demanda ou apresentar maior risco A inclusão da variável de Desempenho do Cliente ainda que simulada reforça a importância de monitorar continuamente métricas comportamentais e financeiras para manter a segmentação alinhada à realidade Na prática isso significa implantar dashboards automatizados relatórios periódicos ou alertas gerenciais para acompanhar indicadores como faturamento atrasos de pagamento e mudanças no porte da equipe práticas recomendadas por autores como Kotler e Keller 2012 para uma gestão proativa do relacionamento com clientes de alto valor 97 A metodologia desenvolvida é robusta porque combina práticas consolidadas de análise exploratória préprocessamento transformação de variáveis aplicação e validação de algoritmos de clusterização como KMeans e simulações de métricas de negócio como CAC e LTV alinhando mineração de dados a indicadores financeiros reais da operação comercial TAN STEINBACH KUMAR 2019 Essa integração traduz ciência de dados em ação gerencial prática transformando o modelo em uma ferramenta viva de apoio à decisão Embora o estudo tenha utilizado uma base de empresas de serviços de cobrança o mesmo fluxo pode ser replicado em outros setores B2B como tecnologia consultorias ou indústrias bastando identificar as variáveis que melhor representam o comportamento de consumo e alimentar o modelo com dados de qualidade STONE WOODCOCK 2014 Assim a segmentação de clientes quando combinada com CAC e LTV tornase um recurso estratégico para direcionar esforços de marketing e vendas de forma eficiente reduzindo custos aumentando margem de lucro e fortalecendo a fidelização dos clientes mais valiosos KOTLER KELLER 2012 Mais do que um ganho imediato essa abordagem cria uma base sólida de clientes sustentáveis sustentando o crescimento da empresa de forma inteligente escalável e alinhada à estratégia de longo prazo 97 CONCLUSÃO Este trabalho teve como principal objetivo demonstrar de forma prática e aplicada como a clusterização de clientes pode ser uma ferramenta poderosa para aprimorar a gestão comercial de empresas B2B atendendo a recomendações de Kotler e Keller 2012 para uso de segmentação como base de estratégias de marketing direcionadas A segmentação foi estruturada a partir de informações de fácil obtenção como Faturamento e Quantidade de Funcionários complementadas por métricas simuladas como Lifetime Value LTV e Custo de Aquisição de Clientes CAC reconhecidos na literatura como indicadoreschave para decisões de vendas e retenção STONE WOODCOCK 2014 Por meio de um fluxo completo que incluiu seleção limpeza transformação análise estatística aplicação do KMeans e validação por métricas como o método do cotovelo e o coeficiente de Silhouette HAN KAMBER PEI 2012 foi possível agrupar os clientes em perfis coerentes revelando diferenças claras de receita potencial estrutura operacional e esforço de aquisição Essa segmentação reforça o princípio de que o tamanho da equipe não é isoladamente um bom preditor de faturamento destacando a necessidade de múltiplos critérios para decisões mais precisas TAN STEINBACH KUMAR 2019 Um ponto de destaque é que mesmo com variáveis simples a aplicação de técnicas básicas de mineração de dados pode gerar insights práticos para apoiar gestores na tomada de decisão diária Os resultados evidenciaram como pontuam Stone e Woodcock 2014 que clusters com alto faturamento podem ter CAC similar a grupos de baixo LTV alertando para o risco de aplicar a mesma abordagem a perfis distintos Assim a metodologia orienta direcionar esforços comerciais visitas e retenção para clusters mais rentáveis enquanto grupos de menor retorno devem ser geridos com automação para reduzir custos Outro diferencial é a inclusão de uma variável de Desempenho do Cliente mesmo simulada que abre caminho para evolução do modelo com dados reais de comportamento engajamento e satisfação em linha com práticas de CRM dinâmico 99 KOTLER KELLER 2012 Recomendase ainda a adoção de dashboards automatizados e ciclos de atualização periódicos para recalcular os clusters e manter a segmentação sempre alinhada à realidade de mercado HAN KAMBER PEI 2012 A versatilidade do método também é destacável apesar de aplicado a uma base de serviços de cobrança o mesmo fluxo é replicável em setores como tecnologia consultorias ou indústrias bastando que cada empresa identifique as variáveis mais relevantes para seu públicoalvo STONE WOODCOCK 2014 Assim a clusterização apresentada nesta dissertação fornece uma metodologia prática replicável e adaptável entregando bases sólidas para segmentar contas de forma mais lucrativa reduzir o CAC aumentar o LTV médio e otimizar etapas do funil de vendas pilares de qualquer estratégia de crescimento sustentável no B2B KOTLER KELLER 2012 TAN STEINBACH KUMAR 2019 Os resultados fortalecem a contribuição teórica e prática do estudo servindo como guia realista para decisões mais datadriven elevando eficiência rentabilidade e competitividade de longo prazo 99 REFERENCIAS BIBLIOGRÁFICA AFINITI V P A New Approach to Proportional Hazards Modeling for Estimating Customer Lifetime Value 2022 BARAN R J GALKA R J STRUNK D P 2013 CRM The Foundations of Contemporary Marketing Strategy Londres Routledge 2013 BAUER J JANNACH D Improved Customer Lifetime Value Prediction with SequenceToSequence Learning and FeatureBased Models ACM Transactions on Knowledge Discovery from Data v 15 n 5 2021 BERGER P D NASR N I Customer Lifetime Value Marketing Models and Applications Journal of Interactive Marketing v12 n 1 p 1730 Winter 1998 BREIMAN L Random Forests Machine Learning Dordrecht Springer 2001 BURELLI P Predicting Customer Lifetime Value in FreetoPlay Games 2019 CAO Y RUSMEVICHIENTONG P TOPALOGLU H Revenue Management Under a Mixture of Independent Demand and Multinomial Logit Models Operations Research v 71 n 2 p 603625 2023 CHENG H Chen Y Classification of the risk levels of heart disease using a hybrid data mining approach In Proceedings of the International Multiconference of Engineers and Computer Scientists Vol 1 2009 CUMPS B MARTENS D DE BACKER M HAESEN R VIAENE S DEDENE G SNOECK M Inferring comprehensible business ICT alignment rules Information Management v 46 n 2 p 116124 2009 DOI 101016jim200805005 HÖPPNER S STRIPLING E BAESENS B BROUCKE S v VERDONCK T Profit driven decision trees for churn prediction European Journal of Operational Research 2018 Disponível em httpswwwelseviercomlocateejor Acesso em 21 jul 2024 DAHANA W D MIWA Y MORISADA M Linking lifestyle to customer lifetime value An exploratory study in an online fashion retail market Journal of Business Research v 99 p 319331 Elsevier Inc 2019 Do C B Batzoglou S What is the expectation maximization algorithm Nature Biotechnology 268 897899 2008 DOMINGOS P The Master Algorithm Basic Books 2015 Ekstrand M D Riedl J T Konstan J A Collaborative Filtering Recommender Systems Foundations and Trends in HumanComputer Interaction 42 81173 2010 ESTER M KRIEGEL HP SANDER J XU X A densitybased algorithm for discovering clusters in large spatial databases with noise In Proceedings of the 101 Second International Conference on Knowledge Discovery and Data Mining Portland AAAI Press 1996 p 226231 FARRIS P W BENDLE NT PFEIFER P E REIBSTEIN D J Marketing Metric The Definitive Guide to Measuring Marketing Performance Londres Pearson 2020 Fayyad U PiatetskyShapiro G Smyth P From Data Mining to Knowledge Discovery in Databases AI Magazine 173 3754 1996 FIELD A MILES J FIELD Z Discovering Statistics Using R 2nd ed London Sage 2017 HAIR J F BLACK W C BABIN B J ANDERSON R E TATHAM R L Multivariate Data Analysis 7th ed Upper Saddle River NJ Prentice Hall 2009 HAN Jiawei KAMBER Micheline PEI Jian Data Mining Concepts and Techniques 3rd ed Waltham Morgan Kaufmann 2011 HARRIS C R MILLMAN K J van der WALT S J GOMMERS R VIRTANEN P COURNAPEAU D WIESER E TAYLOR J BERG S SMITH N J KERN R PICUS M HOYER S van KERKWIJK M H BRETT M HALDANE A DEL RÍO J F WIEBE M PETERSON P GÉRADMARCHANT P Oliphant T E Array programming with NumPy Nature 5857825 357362 2020 HUANG M RUST RT Engaged to a Robot The Role of Al in Service Journal of Service Research v 23 p 97113 2020 HUNTER J D Matplotlib A 2D graphics environment Computing in Science Engineering 93 9095 2007 JASEK P VRANA L SPERKOVA L SMUTNY Z KOBULSKY M Comparative Analysis of Selected Probabilistic Customer Lifetime Value Models in Online Shopping Journal of Business Economics and Management v 20 n 3 p 398423 2019 KABACOFF R R in Action Data Analysis and Graphics with R 3rd ed Shelter Island Manning 2021 KANCHANAPOOM K CHONGWATPOL J Integrated customer lifetime value models to support marketing decisions in the complementary and alternative medicine industry Benchmarking 2023 KANCHANAPOOM K CHONGWATPOL J Integrated customer lifetime value CLV and customer migration model to improve customer segmentation Journal of Marketing Analytics 2022 Disponível em httpslinkspringercomarticle101057s41270022001587 Acesso em 2212024 KELLER K L Strategic Brand Management Building Measuring and Managing Brand Equity Londres Pearson 2014 101 KOTLER P KELLER K L Administração de Marketing 12a Ed São Paulo Pearson Prentice Hall 2006 KRISHNAMURTHY R DESHPANDE P Data Visualization with Python 2nd ed Birmingham Packt 2022 KUMAR V Managing Customer for Profit Strategies to Increase Profits and Build Loyalty Philadelphia Wharton School Publishing 2018 KUMAR V DXIT A JAVALGI RG DASS M Relationship marketing in the digital age Concepts practices and perspectives Journal of Marketing Management v 36 p 216244 2020 KUMAR A SINGH K U KUMAR G CHOUDHURY T KOTECHA K Customer Lifetime Value Prediction Using Machine Learning to Forecast CLV and Enhance Customer Relationship Management 7th International Symposium on Multidisciplinary Studies and Innovative Technologies ISMSIT 2023 Proceedings Anais 2023 Institute of Electrical and Electronics Engineers Inc LAROCHELLE H et al Interpretable Machine Learning Decision Trees and Beyond MIT Press 2022 LI K SHAO G YANG N FANG X SONG Y Billionuser Customer Lifetime Value Prediction An Industrialscale Solution from Kuaishou International Conference on Information and Knowledge Management Proceedings Anais p32433251 2022 Association for Computing Machinery LUNDBERG S M LEE SI A Unified Approach to Interpreting Model Predictions NeurIPS 2020 MALHOTRA N K Marketing Research An Applied Orientation 5th ed Upper Saddle River NJ Pearson Prentice Hall 2006 McDonald M Dunbar I Market Segmentation How to Do It and How to Profit from It John Wiley Sons 2012 MCKINNEY W Python for Data Analysis 3ª ed OReilly 2022 Atualização do clássico sobre Pandas MATPLOTLIB Documentação oficial do Matplotlib Disponível em httpsmatplotliborg Acesso em 16 jul 2024 MCKINNEY Wes Data Structures for Statistical Computing in Python In Proceedings of the 9th Python in Science Conference 2010 MINTZBERG H AHLSTRAND B LAMPEL J Safari de estratégia um roteiro pela selva do planejamento estratégico 2o ed Porto Alegre Bookman 2010 MISSINGNO Repositório oficial do Missingno no GitHub Disponível em httpsgithubcomResidentMariomissingno Acesso em 16 jul 2024 103 MOLNAR C Interpretable Machine Learning 2ed 2022 Disponível em httpschristophmgithubiointerpretablemlbook NATIONAL ACADEMIES OF SCIENCES 2021 Data Science for Undergraduates Consensus Study Report Washington The National Academies Press NIJKAMP P Multivariate Analysis in Practice The Application of Statistical Methods Berlin SpringerVerlag 1999 NUMPY Documentação oficial do NumPy Disponível em httpsnumpyorg Acesso em 16 jul 2024 OLNÉN John Customer Lifetime Value Maximizing Profitability through Customer Loyalty Business Insights Press 2022 PAGANO M GAUVREAU K Principles of Biostatistics 2nd ed Boca Raton CRC Press 2018 PANDAS Documentação oficial do Pandas Disponível em httpspandaspydataorg Acesso em 16 jul 2024 PAYNE A FROW P Strategic Customer Management Integrating Relationship Marketing and CRM Cambridge Cambridge University Press 2017 PEDREGOSA F et al Scikitlearn Machine Learning in Python Journal of Machine Learning Research 1228252830 2011 POLLAK Z Predicting customer lifetime valueecommerce use case 2021 POLLAK Z Deep Learning Applications in Customer Lifetime Value Prediction Data Science Journal v 20 2021 QUINLAN J R 1986 Induction of decision trees Machine learning 11 81106 REZAEINIA S M RAHMANI R Recommender system based on customer segmentation RSCS Kybernetes v 45 n 6 p 946961 2016 Emerald Group Publishing Ltd RIEDL J KONSTAN J A Human Computer Interaction Handbook Fundamentals Evolving Technologies and Emerging Applications Third Edition In J Jacko Ed CRC Press 2011 RUMELHART D E HINTON G E WILLIAMS R J Learning representations by backpropagating errors Nature 3236088 533536 1986 RUST R T LEMON K N ZEITHAML V A Return on Marketing Using Customer Equity to Focus Marketing Strategy Journal of Marketing 681 109127 2004 SCIKITLEARN Documentação oficial do Scikitlearn Disponível em httpsscikit learnorgstable Acesso em 16 jul 2024 103 SEABORN Documentação oficial do Seaborn Disponível em httpsseabornpydataorg Acesso em 16 jul 2024 SU H DU Z LI J ZHU L LU K CrossDomain Adaptative Learning for Online Advertisement Customer Lifetime Value Prediction 2023 THOMAS R J Multistage market segmentation an exploration of B2B segment alignment Journal of Business and Industrial Marketing v 31 n 7 p 821834 2016 Emerald Group Publishing Ltd THOMPSON B Exploratory and Confirmatory Factor Analysis Understanding Concepts and Applications Washington DC American Psychological Association 2004 1Times Higher Education 2023 World University Rankings 2023 Data Science and Analytics Disponível em httpswwwtimeshighereducationcom VANDERPLAS J Python Data Science Handbook Essential Tools for Working with Data 1st ed Sebastopol OReilly Media 2016 VERBEKE W MARTENS D BAESENS B Building comprehensible customer churn prediction models with advanced rule induction techniques Expert Systems with Applications 383 23542364 2011 VERHOEVEN D PESCH T CAO Y Utilizing Genetic Algorithms for Revenue Management Optimization Journal of Revenue and Pricing Management v 22 n 3 p 245265 2023 WANG X LIU T MIAO J A Deep Probabilistic Model for Customer Lifetime Value Prediction 2019 Disponível em httparxivorgabs191207753 WASKOM M L BOTVINNIK O OSTBLOM J LUKAUSKAS S GEMPERLINE D C HOBSON P QALIEH A Seaborn statistical data visualization Journal of OpenSource Software 551 3021 doi1021105joss03021 2020 WASKOM M et al Missingno A missing data visualization suite 2020 Disponível em httpsgithubcomResidentMariomissingno WASSERMAN L All of Statistics A Concise Course in Statistical Inference 2nd ed New York Springer 2020 WICKHAM H GROLEMUND G R for Data Science Sebastopol OReilly 2017 WIN T T BO K S Predicting Customer Class using Customer Lifetime Value with Random Forest Algorithm 2020 International Conference on Advanced Information Technologies ICAIT Anais p236241 2020 IEEE WU C LI JINGJIE JIA Q et al Contrastive Multiview Framework for Customer Lifetime Value Prediction Proceedings of ACM Conference Conference17 ACM New York NY USA Anais 2023 105 ZHANG Z ZHAO Y HUZHANG G Exploit Customer Lifetime Value with Memoryless Experiments 2022 Disponível em httparxivorgabs220106254 ZUUR A F IENO E N ELPHICK C S A protocol for data exploration to avoid common statistical problems Methods in Ecology and Evolution v 10 n 1 p 170 181 2019 XIE Y et al Customer Churn Prediction Using Improved Balanced Random Forests Expert Systems with Applications v 120 p 239250 201 DISPONIVEL EM DOI 101016jeswa201811030 BAUER J JANNACH D Improved Customer Lifetime Value Prediction with SequenceToSequence Learning ACM Transactions on Knowledge Discovery from Data v 15 n 3 p 120 2021 DAHANA W D MIWA Y MORI K Predicting Customer Lifetime Value in Business Markets Industrial Marketing Management v 80 p 151167 2019 FAYYAD U et al From Data Mining to Knowledge Discovery in Databases AI Magazine v 17 n 3 p 3754 1996 HAIR J F et al Análise Multivariada de Dados 6 ed Porto Alegre Bookman 2009 HAN J KAMBER M PEI J Data Mining Concepts and Techniques 3 ed San Francisco Morgan Kaufmann 2011 HUANG MH RUST R T A strategic framework for artificial intelligence in marketing Journal of the Academy of Marketing Science v 48 p 3050 2020 KANCHANAPOOM T CHONGWATPOL J Business Customer Segmentation using Latent Class Analysis Expert Systems with Applications v 205 117707 2022 KOTLER P KELLER K L Administração de Marketing 15 ed São Paulo Pearson Prentice Hall 2016 105 KUMAR V Managing Customers for Profit Strategies to Increase Profits and Build Loyalty 2 ed Philadelphia Wharton School Publishing 2018 LI J et al Postpandemic Shifts in B2B Customer Behavior and CRM Adaptation Journal of Business Research v 142 p 350363 2022 POLLAK L Marketing to B2B Customers with DataDriven Personalization New York Routledge 2021 SU Y et al Personalized Lifetime Value Recommendation via Graph Neural Networks Proceedings of the 29th ACM SIGKDD Conference on Knowledge Discovery and Data Mining p 13211330 2023 WU C et al Contrastive Multiview Framework for Customer Lifetime Value Prediction Proceedings of the ACM Web Conference p 24002408 2023 ZHANG Y et al Predicting B2B Customer Profitability through Machine Learning International Journal of Information Management v 64 102472 2022 107 FAYYAD Usama PIATETSKYSHAPIRO Gregory SMYTH Padhraic From data mining to knowledge discovery in databases AI Magazine v 17 n 3 p 3754 1996 HAIR Joseph F BLACK William C BABIN Barry J ANDERSON Rolph E TATHAM Ronald L Análise multivariada de dados 6 ed Porto Alegre Bookman 2009 HAN Jiawei KAMBER Micheline PEI Jian Data mining concepts and techniques 3 ed Waltham Morgan Kaufmann 2012 KOTLER Philip KELLER Kevin Lane Administração de marketing 14 ed São Paulo Pearson Prentice Hall 2012 OLIVEIRA Djalma de Pinho Rebouças de Planejamento estratégico conceitos metodologia e práticas 34 ed São Paulo Atlas 2018 STONE Merlin WOODCOCK Neil Database marketing London Kogan Page 2014 TAN PangNing STEINBACH Michael KUMAR Vipin Introduction to data mining 2 ed Harlow Pearson 2019 107 ANEXOS pip install pandas numpy matplotlib seaborn scikitlearn Requirement already satisfied pandas in usrlocallibpython311distpackages 222 Requirement already satisfied numpy in usrlocallibpython311distpackages 202 Requirement already satisfied matplotlib in usrlocallibpython311distpackages 3100 Requirement already satisfied seaborn in usrlocallibpython311distpackages 0132 Requirement already satisfied scikitlearn in usrlocallibpython311distpackages 161 Requirement already satisfied pythondateutil282 in usrlocallibpython311distpackages from pandas 290post0 Requirement already satisfied pytz20201 in usrlocallibpython311distpackages from pandas 20252 Requirement already satisfied tzdata20227 in usrlocallibpython311distpackages from pandas 20252 Requirement already satisfied contourpy101 in usrlocallibpython311distpackages from matplotlib 132 Requirement already satisfied cycler010 in usrlocallibpython311distpackages from matplotlib 0121 Requirement already satisfied fonttools4220 in usrlocallibpython311distpackages from matplotlib 4582 Requirement already satisfied kiwisolver131 in usrlocallibpython311distpackages from matplotlib 148 Requirement already satisfied packaging200 in usrlocallibpython311distpackages from matplotlib 242 Requirement already satisfied pillow8 in usrlocallibpython311distpackages from matplotlib 1121 Requirement already satisfied pyparsing231 in usrlocallibpython311distpackages from matplotlib 323 Requirement already satisfied scipy160 in usrlocallibpython311distpackages from scikitlearn 1153 Requirement already satisfied joblib120 in usrlocallibpython311distpackages from scikitlearn 151 Requirement already satisfied threadpoolctl310 in usrlocallibpython311distpackages from scikitlearn 360 Requirement already satisfied six15 in usrlocallibpython311distpackages from pythondateutil282pandas 1170 import pandas as pd import numpy as np import matplotlibpyplot as plt import seaborn as sns from sklearncluster import KMeans from sklearnpreprocessing import StandardScaler from sklearnmetrics import silhouettescore filepaths contentBaseListaLeads55Mvs2xlsx contentcluster0csv contentbaseleadsxlsx contentbaseleadsokxlsx Dicionário para guardar os DataFrames dataframes for path in filepaths if pathendswithxlsx df pdreadexcelpath elif pathendswithcsv df pdreadcsvpath sep tenta sep pois deu erro com else continue dataframespathsplit1 df Verificar quais foram carregados printfArquivos carregados listdataframeskeys Arquivos carregados BaseListaLeads55Mvs2xlsx cluster0csv baseleadsxlsx baseleadsokxlsx Ver resumo de cada DataFrame for name df in dataframesitems printf name printdfinfo printdfhead3 print BaseListaLeads55Mvs2xlsx class pandascoreframeDataFrame RangeIndex 55039 entries 0 to 55038 Data columns total 42 columns Column NonNull Count Dtype 0 55038 55039 nonnull object 1 Unnamed 1 55039 nonnull object 2 Unnamed 2 55039 nonnull object 3 Unnamed 3 55039 nonnull object 4 Unnamed 4 55039 nonnull object 5 Unnamed 5 55039 nonnull object 6 Unnamed 6 55039 nonnull object 7 Unnamed 7 55039 nonnull object 8 R Recorrência 55039 nonnull object 9 Unnamed 9 55039 nonnull object 10 Unnamed 10 55039 nonnull object 2 SERVIÇOS SERVICOS ENGENHARIA 0 Unnamed 7 R Recorrência Unnamed 9 0 StatusGr M1 M2 1 0 0 0 2 0 0 0 Unnamed 33 Unnamed 32 0 CNAEs Secundários 1 41204005223100646200068102036822600 Brasília 2 8020001771100077390997020400731900462023 Sao Bernardo Do Campo Unnamed 34 Unnamed 35 Unnamed 36 Unnamed 37 0 Estado Microregião Mesoregião QuantFuncionarios 1 DF Brasília Distrito Federal 117 2 SP São Paulo Metropolitana de São Paulo 50 Unnamed 38 Unnamed 39 Unnamed 40 Unnamed 41 0 Natureza Jurídica Exportador Importador 1 1 NaN NaN 2 1 NaN NaN 3 rows x 42 columns cluster0csv class pandascoreframeDataFrame RangeIndex 2799 entries 0 to 2798 Data columns total 25 columns Column NonNull Count Dtype 0 CodEmp 2799 nonnull int64 1 CodCNAE 2799 nonnull int64 2 CNAEs 2799 nonnull object 3 SegmentoCO 2766 nonnull object 4 SegmentoGL 2766 nonnull object 5 SubsegGL 2766 nonnull object 6 CodGr 2766 nonnull float64 7 StatusGr 2766 nonnull object 8 PDPrior 2766 nonnull object 9 FatPres 2766 nonnull float64 10 TitDevs 2766 nonnull float64 11 Porte 2766 nonnull object 12 Situação 2766 nonnull object 13 NívelAtiv 2766 nonnull object 14 RiscoInad 2766 nonnull object 15 CNAEs Secundários 2766 nonnull object 16 Cidade 2766 nonnull object 17 Estado 2766 nonnull object 18 Microrregião 2766 nonnull object 19 Mesorregião 2766 nonnull object 20 QuantFuncionarios 2766 nonnull float64 21 Natureza Jurídica 2766 nonnull float64 22 Exportador 2766 nonnull object 23 Importador 2766 nonnull object 24 cluster 2766 nonnull float64 dtypes float646 int642 object17 memory usage 5468 KB None CNAEs CodEmp CodCNAE 0 100020648 5911199 5911199 Atividades de produção cinematográfi 1 100022630 5920100 5920100 Atividades de gravação de som e de e 2 100060378 4930202 4930202 Transporte rodoviário de carga exce SegmentoCO SegmentoGL SubsegGL CodGr StatusGr PDPrior 0 COMUNICAÇÃO SERVICOS COMUNICACAO 00 0 SI 1 COMUNICAÇÃO SERVICOS COMUNICACAO 00 0 SI 2 LOGISTICATRANSPORTE LOGISTICA TRANSPORTADOR 00 0 SI FatPres CNAEs Secundários 0 224000000 591110259138005920100 1 121250000 464940759111997311400 2 172300000 773909946630007820500773220149230024330404 Cidade Estado Microrregião 0 Sao Paulo SP São Paulo 1 Sao Paulo SP São Paulo 2 Sao Joao Da Barra RJ Campos dos Goytacazes Exportador Mesorregião QuantFuncionarios Natureza Jurídica 0 Metropolitana de São Paulo 820 10 Não 1 Metropolitana de São Paulo 570 10 Não 2 Norte Fluminense 510 10 Não Importador cluster 0 Não 00 1 Não 00 2 Não 00 3 rows x 25 columns baseleadsxlsx class pandascoreframeDataFrame RangeIndex 55038 entries 0 to 55037 Data columns total 24 columns Column NonNull Count Dtype 0 CodEmp 55038 nonnull int64 1 CodCNAE 55038 nonnull int64 2 CNAEs 55038 nonnull object 3 SegmentoCO 55038 nonnull object 4 SegmentoGL 55038 nonnull object 5 SubsegGL 55038 nonnull object 6 CodGr 55038 nonnull int64 7 StatusGr 55038 nonnull object 8 PDPrior 55038 nonnull object 9 FatPres 55038 nonnull int64 10 TitDevs 55038 nonnull int64 11 Porte 55038 nonnull object 12 Situação 55038 nonnull object 13 NívelAtiv 55038 nonnull object 14 RiscoInad 55038 nonnull object 15 CNAEs Secundários 55038 nonnull object 16 Cidade 55038 nonnull object 17 Estado 55038 nonnull object 18 Microrregião 55032 nonnull object 19 Mesorregião 55032 nonnull object 20 QuantFuncionarios 54858 nonnull float64 21 Natureza Jurídica 55038 nonnull int64 22 Exportador 9271 nonnull object 23 Importador 11968 nonnull object dtypes float641 int646 object17 memory usage 101 MB None CNAEs CodEmp CodCNAE 0 100000166 4110700 4110700 Incorporação de empreendimentos imob 1 100000172 7112000 7112000 Serviços de engenharia 2 100000424 7311400 7311400 Agências de publicidade SegmentoCO SegmentoGL SubsegGL CodGr 0 ENGENHARIACONSTRUÇÃO CONSTRUCAO E PROJETOS INCORPORADORA 0 1 SERVIÇOS SERVIÇOS ENGENHARIA 0 2 SERVIÇOS SERVIÇOS MARKETING 0 StatusGr PDPrior FatPres RiscoInad 0 0 SI 12125000 Muito baixo 1 0 SI 22400000 Muito baixo 2 0 SI 12125000 Muito baixo CNAEs Secundários Cidade 0 41204005223100646200068102036822600 Brasilia 1 8020001771100077390997020400731900462023 Sao Bernardo Do Campo 2 Sao Paulo Estado Microrregião Mesorregião QuantFuncionarios 0 DF Brasília Distrito Federal 1170 1 SP São Paulo Metropolitana de São Paulo 500 2 SP São Paulo Metropolitana de São Paulo 760 Natureza Jurídica Exportador Importador 0 1 NaN NaN 1 1 NaN NaN 2 1 NaN NaN 3 rows x 24 columns baseleadsokxlsx class pandascoreframeDataFrame RangeIndex 1017 entries 0 to 1016 Data columns total 25 columns Column NonNull Count Dtype 0 CodEmp 1017 nonnull int64 1 CodCNAE 1017 nonnull int64 2 CNAEs 1017 nonnull object 3 SegmentoCO 1017 nonnull object 4 SegmentoGL 1017 nonnull object 5 SubsegGL 1017 nonnull object 6 CodGr 1017 nonnull int64 7 StatusGr 1017 nonnull object 8 Target 1017 nonnull int64 9 PDPrior 1017 nonnull object 10 FatPres 1017 nonnull int64 11 TitDevs 1017 nonnull int64 12 Porte 1017 nonnull object 13 Situação 1017 nonnull object 14 NívelAtiv 1017 nonnull object 15 RiscoInad 1017 nonnull object 16 CNAEs Secundários 1017 nonnull object 17 Cidade 1017 nonnull object 18 Estado 1017 nonnull object 19 Microrregião 1017 nonnull object 20 Mesorregião 1017 nonnull object 21 QuantFuncionarios 1016 nonnull float64 22 Natureza Jurídica 1017 nonnull int64 23 Exportador 407 nonnull object 24 Importador 493 nonnull object dtypes float641 int647 object17 memory usage 1988 KB None CodEmp CodCNAE CNAEs 0 100026910 1099699 1099699 Fabricação de outros produtos alimen 1 100028986 4329103 4329103 Instalação manutenção e reparação d 2 100056633 1414200 1414200 Fabricação de acessórios do vestuári SegmentoCO SegmentoGL SubsegGL CodGr 0 ALIMENTOSBEBIDAS ALIMENTOSBEBIDAS MANUFATURA 680 1 ENGENHARIACONSTRUÇÃO CONSTRUCAO E PROJETOS INSTALACAO 29 2 BENS DE CONSUMO TEXTIL E VESTUARIO MANUFATURA 1432 StatusGr Target PDPrior RiscoInad 0 INATIVO CHURN 0 2023 Baixo 1 ATIVO 1 2023 Muito baixo 2 INATIVO 0 2023 Muito baixo CNAEs Secundários Cidade Estado 0 4693100109610046184018292000469150046923 Sorocaba SP 1 Sao Paulo SP 2 3299005174190218130991731100749019946427 Blumenau SC Microregião Mesorregião QuantFuncionarios 0 Sorocaba Macro Metropolitana Paulista 2760 1 São Paulo Metropolitana de São Paulo 2710 2 Blumenau Vale do Itajaí 7670 Natureza Jurídica Exportador Importador 0 1 NaN Sim 1 1 NaN NaN 2 1 Sim Sim 3 rows x 25 columns Usar a base principal exemplo baseleadsokxlsx df dataframesbaseleadsokxlsx Visualizar resumo para confirmar printdfinfo printdfhead class pandascoreframeDataFrame RangeIndex 1017 entries 0 to 1016 Data columns total 25 columns Column NonNull Count Dtype 0 CodEmp 1017 nonnull int64 1 CodCNAE 1017 nonnull int64 2 CNAEs 1017 nonnull object 3 SegmentoCO 1017 nonnull object 4 SegmentoGL 1017 nonnull object 5 SubsegGL 1017 nonnull object 6 CodGr 1017 nonnull int64 7 StatusGr 1017 nonnull object 8 Target 1017 nonnull int64 9 PDPrior 1017 nonnull object 10 FatPres 1017 nonnull int64 11 TitDevs 1017 nonnull int64 12 Porte 1017 nonnull object 13 Situação 1017 nonnull object 14 NívelAtiv 1017 nonnull object 15 RiscoInad 1017 nonnull object 16 CNAEs Secundários 1017 nonnull object 17 Cidade 1017 nonnull object 18 Estado 1017 nonnull object 19 Microrregião 1017 nonnull object 20 Mesorregião 1017 nonnull object 21 QuantFuncionarios 1016 nonnull float64 22 Natureza Jurídica 1017 nonnull int64 23 Exportador 407 nonnull object 24 Importador 493 nonnull object dtypes float641 int647 object17 memory usage 1988 KB None CNAEs CodEmp CodCNAE 0 100026910 1099699 1099699 Fabricação de outros produtos alimen 1 100028986 4329103 4329103 Instalação manutenção e reparação d 2 100056633 1414200 1414200 Fabricação de acessórios do vestuári 3 100074569 1122403 1122403 Fabricação de refrescos xaropes e p 4 100080671 1042200 1042200 Fabricação de óleos vegetais refinad SegmentoCO SegmentoGL SubsegGL CodGr 0 ALIMENTOSBEBIDAS ALIMENTOSBEBIDAS MANUFATURA 680 1 ENGENHARIACONSTRUÇÃO CONSTRUCAO E PROJETOS INSTALACAO 29 2 BENS DE CONSUMO TEXTIL E VESTUARIO MANUFATURA 1432 3 ALIMENTOSBEBIDAS ALIMENTOSBEBIDAS MANUFATURA 1503 4 ALIMENTOSBEBIDAS ALIMENTOSBEBIDAS MANUFATURA 1124 StatusGr Target PDPrior RiscoInad 0 INATIVO CHURN 0 2023 Baixo 1 ATIVO 1 2023 Muito baixo 2 INATIVO 0 2023 Muito baixo 3 ATIVO 1 2023 Muito baixo 4 ATIVO 1 2023 Muito baixo CNAEs Secundários Cidade Estado 0 4693100109610046184018292000469150046923 Sorocaba SP 1 Sao Paulo SP 2 3299005174190218130991731100749019946427 Blumenau SC 3 1033302109969911224021122499 Rio De Janeiro RJ 4 1415011041400106430010651011065102106510 Itumbiara GO Microregião Mesoregião QuantFuncionarios 0 Sorocaba Macro Metropolitana Paulista 2760 1 São Paulo Metropolitana de São Paulo 2710 2 Blumenau Vale do Itajaí 7670 3 Rio de Janeiro Metropolitana do Rio de Janeiro 2630 4 Meia Ponte Sul Goiano 2210 Natureza Jurídica Exportador Importador 0 1 NaN Sim 1 NaN 1 NaN NaN 2 1 Sim Sim 3 1 Sim Sim 4 1 Sim Sim 5 rows x 25 columns printdfcolumnstolist CodEmp CodCNAE CNAEs SegmentoCO SegmentoGL SubsegGL CodGr StatusGr Target PDPrior FatPres TitDevs Porte Situação NívelAtiv RiscoInad CNAES Secundários Cidade Estado Microregião Mesoregião QuantFuncionarios Natureza Jurídica Exportador Importador Escolher features numéricas principais features FatPres QuantFuncionarios ajuste conforme os nomes exatos Remover linhas com valores ausentes nessas colunas dfclean dfdropnasubsetfeatures printfLinhas após remoção de nulos dfcleanshape Linhas após remoção de nulos 1016 25 Padronizar os dados scaler StandardScaler Xscaled scalerfittransformdfcleanfeatures Método do cotovelo inertia K range1 10 for k in K kmeans KMeansnclustersk randomstate42 kmeansfitXscaled inertiaappendkmeansinertia pltplotK inertia bx pltxlabelNúmero de Clusters pltylabelInertia plttitleMétodo do Cotovelo pltshow Silhouette Score opcional for k in range2 10 kmeans KMeansnclustersk randomstate42 labels kmeansfitpredictXscaled score silhouettescoreXscaled labels printfSilhouette Score para kk score4f Silhouette Score para k2 09641 Silhouette Score para k3 06453 Silhouette Score para k4 07280 Silhouette Score para k5 07616 Silhouette Score para k6 07602 Silhouette Score para k7 07618 Silhouette Score para k8 07721 Silhouette Score para k9 06502 Por exemplo 3 clusters kmeans KMeansnclusters3 randomstate42 dfcleanCluster kmeansfitpredictXscaled printdfcleanClustervaluecounts Cluster 2 546 0 468 1 2 Name count dtype int64 ipythoninput1511134421593 SettingWithCopyWarning A value is trying to be set on a copy of a slice from a DataFrame Try using locrowindexercolindexer value instead See the caveats in the documentation httpspandaspydataorgpandasdocsstableuserguideindexinghtmlreturningaviewversusacopy dfcleanCluster kmeansfitpredictXscaled snsscatterplot xdfcleanFatPres ydfcleanQuantFuncionarios huedfcleanCluster paletteSet1 plttitleClusters pltshow Clusters Cluster 0 1 2 QuantFuncionarios 2500 2000 1500 1000 500 0 FatPres 00 05 10 15 20 25 30 35 1e11 Se quiser carregar cluster0csv dfoldcluster dataframescluster0csv Ver exemplo de comparação printdfoldclusterhead CNAEs CodEmp CodCNAE 0 100020648 5911199 5911199 Atividades de produção cinematográfi 1 100022630 5920100 5920100 Atividades de gravação de som e de e 2 100060378 4930202 4930202 Transporte rodoviário de carga exce 3 100075032 7112000 7112000 Serviços de engenharia 4 100081993 729404 0729404 Extração de minérios de cobre chumb SegmentoCO SegmentoGL SubsegGL CodGr 0 COMUNICAÇÃO SERVICOS COMUNICACAO 00 1 COMUNICAÇÃO SERVICOS COMUNICACAO 00 2 LOGISTICATRANSPORTE LOGISTICA TRANSPORTADOR 00 3 SERVIÇOS SERVICOS ENGENHARIA 00 4 MINERADORA MANUFATURA EXTRATIVISTA E BENEFICIAMENTO 00 StatusGr PDPrior FatPres 0 0 SI 224000000 1 0 SI 121250000 2 0 SI 172300000 3 0 SI 121250000 4 0 SI 172300000 CNAEs Secundários Cidade 0 591110259138005920100 Sao Paulo 1 464940759111997311400 Sao Paulo 2 773909946630007820500773220149230024330404 Sao Joao Da Barra 3 Rio De Janeiro 4 990402 Tunas Do Parana Estado Microregião Mesoregião 0 SP São Paulo Metropolitana de São Paulo 1 SP São Paulo Metropolitana de São Paulo 2 RJ Campos dos Goytacazes Norte Fluminense 3 RJ Rio de Janeiro Metropolitana do Rio de Janeiro 4 PR Curitiba Metropolitana de Curitiba QuantFuncionarios Natureza Jurídica Exportador Importador cluster 0 820 10 Não Não 00 1 570 10 Não Não 00 2 510 10 Não Não 00 3 190 10 Não Não 00 4 930 10 Não Não 00 5 rows x 25 columns Adicionar coluna log do faturamento import numpy as np dfcleanlogFatPres nplog1pdfcleanFatPres log1 x evita log0 1 COMUNICAÇÃO SERVICOS COMUNICACAO 00 2 LOGISTICATRANSPORTE LOGISTICA TRANSPORTADOR 00 3 SERVIÇOS SERVICOS ENGENHARIA 00 4 MINERADORA MANUFATURA EXTRATIVISTA E BENEFICIAMENTO 00 StatusGr PDPrior FatPres 0 0 SI 224000000 1 0 SI 121250000 2 0 SI 172300000 3 0 SI 121250000 4 0 SI 172300000 CNAEs Secundários Cidade 0 591110259138005920100 Sao Paulo 1 464940759111997311400 Sao Paulo 2 773909946630007820500773220149230024330404 Sao Joao Da Barra 3 Rio De Janeiro 4 990402 Tunas Do Parana Estado Microregião Mesoregião 0 SP São Paulo Metropolitana de São Paulo 1 SP São Paulo Metropolitana de São Paulo 2 RJ Campos dos Goytacazes Norte Fluminense 3 RJ Rio de Janeiro Metropolitana do Rio de Janeiro 4 PR Curitiba Metropolitana de Curitiba QuantFuncionarios Natureza Jurídica Exportador Importador cluster 0 820 10 Não Não 00 1 570 10 Não Não 00 2 510 10 Não Não 00 3 190 10 Não Não 00 4 930 10 Não Não 00 5 rows x 25 columns Adicionar coluna log do faturamento import numpy as np dfcleanlogFatPres nplog1pdfcleanFatPres log1 x evita log0 Verificar nova feature dfcleanFatPres logFatPreshead ipythoninput1836515223294 SettingWithCopyWarning A value is trying to be set on a copy of a slice from a DataFrame Try using locrowindexercolindexer value instead See the caveats in the documentation httpspandaspydataorgpandasdocsstableuserguideindexinghtmlreturningaviewversusacopy dfcleanlogFatPres nplog1pdfcleanFatPres log1 x evita log0 summary name dfcleanFatPres logFatPresn rows 5 fields column FatPres properties dtype number std 744129731 min 56700000 max 1500000000 numuniquevalues 3 samples 236000000 150000000 5670000 semantictype description column logFatPres properties dtype number std 14913801035777738 min 17853284786334665 max 2112873094572124 numuniquevalues 3 samples 19279342367227173 2112873094572124 17853284786334665 semantictype description typedataframe features logFatPres QuantFuncionarios Remover nulos deve estar ok Xscaled scalerfittransformdfcleanfeatures Elbow Method com logFatPres inertia K range1 10 for k in K kmeans KMeansnclustersk randomstate42 kmeansfitXscaled inertiaappendkmeansinertia pltplotK inertia bx pltxlabelNúmero de Clusters pltylabelInertia plttitleMétodo do Cotovelo logFatPres pltshow Silhouette Score for k in range2 10 kmeans KMeansnclustersk randomstate42 labels kmeansfitpredictXscaled score silhouettescoreXscaled labels printfSilhouette Score para kk score4f Método do Cotovelo logFatPres Silhouette Score para k2 04400 Silhouette Score para k3 04714 Silhouette Score para k4 04070 Silhouette Score para k5 04442 Silhouette Score para k6 04253 Silhouette Score para k7 04320 Silhouette Score para k8 04527 Silhouette Score para k9 04677 Novo clustering usando logFatPres kmeans KMeansnclusters5 randomstate42 dfcleanCluster kmeansfitpredictXscaled ipythoninput2133513388583 SettingWithCopyWarning A value is trying to be set on a copy of a slice from a DataFrame Try using locrowindexercolindexer value instead See the caveats in the documentation httpspandaspydataorgpandasdocsstableuserguideindexinghtmlreturningaviewversusacopy dfcleanCluster kmeansfitpredictXscaled snsscatterplot xdfcleanlogFatPres ydfcleanQuantFuncionarios huedfcleanCluster paletteSet1 plttitleClusters logFatPres pltshow Ver correlação entre variáveis numéricas corr dfcleanFatPres QuantFuncionarioscorr printcorr snsheatmapcorr annotTrue cmapcoolwarm plttitleMatriz de Correlação pltshow FatPres QuantFuncionarios FatPres 1000000 0043068 QuantFuncionarios 0043068 1000000 Matriz de Correlação Supondo que LTV seja proporcional ao faturamento simplificação dfcleanLTV dfcleanFatPres 12 exemplo supõe que LTV 120 do faturamento Simular um CAC aleatório dentro de uma faixa plausível nprandomseed42 dfcleanCAC nprandomrandint1000 5000 sizelendfclean Ver exemplo printdfcleanFatPres LTV CAChead FatPres LTV CAC 0 236000000 2832000e08 4174 1 150000000 1800000e09 4507 2 56700000 6804000e07 1860 3 150000000 1800000e09 2294 4 150000000 1800000e09 2130 ipythoninput2424280727462 SettingWithCopyWarning A value is trying to be set on a copy of a slice from a DataFrame Try using locrowindexercolindexer value instead See the caveats in the documentation httpspandaspydataorgpandasdocsstableuserguideindexinghtmlreturningaviewversusacopy dfcleanLTV dfcleanFatPres 12 exemplo supõe que LTV 120 do faturamento ipythoninput2424280727466 SettingWithCopyWarning A value is trying to be set on a copy of a slice from a DataFrame Try using locrowindexercolindexer value instead See the caveats in the documentation httpspandaspydataorgpandasdocsstableuserguideindexinghtmlreturningaviewversusacopy dfcleanCAC nprandomrandint1000 5000 sizelendfclean Agrupar por cluster clustersummary dfcleangroupbyClusteragg FatPres mean LTV mean CAC mean QuantFuncionarios mean resetindex printclustersummary Cluster FatPres LTV CAC QuantFuncionarios 0 0 6302044e09 7562453e09 3078437037 232955556 1 1 3461042e07 4153250e07 3050599424 83288184 2 2 3383904e07 4060685e07 2882470199 283827815 3 3 1562812e08 1875374e08 2813560000 1082160000 4 4 1962031e08 2354437e08 3059902235 203025140 snsscatterplot dataclustersummary xCAC yLTV hueCluster paletteSet1 s100 plttitleCAC vs LTV por Cluster pltshow CAC vs LTV por Cluster Exemplo criar coluna de pontuação de desempenho simulada nprandomseed42 dfcleanDesempenhoCliente nprandomrandint1 10 sizelendfclean printdfcleanFatPres QuantFuncionarios DesempenhoClientehead FatPres QuantFuncionarios DesempenhoCliente 0 236000000 2760 7 1 1500000000 2710 4 2 56700000 7670 8 3 1500000000 2630 5 4 1500000000 2210 7 ipythoninput2716159578383 SettingWithCopyWarning A value is trying to be set on a copy of a slice from a DataFrame Try using locrowindexercolindexer value instead See the caveats in the documentation httpspandaspydataorgpandasdocsstableuserguideindexinghtmlreturningaviewversusacopy dfcleanDesempenhoCliente nprandomrandint1 10 sizelendfclean UNIVERSIDADE FEDERAL DO PARANÁ METODOLOGIA DE SEGMENTAÇÃO DE CLIENTES B2B ORIENTADA A LUCRATIVIDADE E OS EFEITOS NO LIFETIME VALUE LTV CURITIBA 2025 METODOLOGIA DE SEGMENTAÇÃO DE CLIENTES B2B ORIENTADA A LUCRATIVIDADE E OS EFEITOS DO LIFETIME VALUE LVT Dissertação de Mestrado apresentada ao Programa de PósGraduação em Gestão de Organizações Liderança e Decisão PPGOLD Universidade Federal do Paraná como requisito parcial à obtenção do título de Mestre Orientador Cassius Tadeu Scarpin CURITIBA 2025 Ficha Catalográfica METODOLOGIA DE SEGMENTAÇÃO DE CLIENTES B2B ORIENTADA A LUCRATIVIDADE E OS EFEITOS DO LIFETIME VALUE LVT Dissertação de Mestrado apresentada ao Programa de PósGraduação em Gestão de Organizações Liderança e Decisão PPGOLD Universidade Federal do Paraná como requisito parcial à obtenção do título de Mestre Aprovado em de de 2025 Prof Cassius Tadeu Scarpin Orientador Professor do Programa de PósGraduação da Universidade Federal do Paraná Prof Universidade Prof Universidade 2025 Aos pilares da minha vida minhas queridas filhas e esposo Manoella Martinna e Romério cujo amor e alegria diários são minha fonte de inspiração e força ao meu orientador professor Cassius pelo encorajamento nos momentos difíceis e aos amigos acolhedores que agiram em cada momento de dúvida e celebração Cada um de vocês foi peça chave nessa conquista pela importância do amor do apoio e da amizade Dedico esta dissertação a vocês com toda a minha gratidão AGRADECIMENTOS Em geral aquele que ocupa primeiro o campo de batalha e aguarda seu inimigo está à vontade quem chega depois à cena e se apressa a lutar está cansado Sun Tzu Mintzberg et al 2010 RESUMO As organizações atuando em mercados cada vez mais limitados ou saturados enfrentam constantemente o desafio de fidelizar seus clientes e têm um processo de venda complexo para a progressão do negócio seja na expansão das frentes já existentes ou na criação de novas Essas organizações buscam impedir que seus clientes existentes se tornem inativos enquanto orientam na priorização de novas empresas a serem prospectadas alocando recursos em seus orçamentos para sustentar o portfólio e atender a requisitos estratégicos Esta pesquisa visa realizar um estudo analítico sobre a importância da metodologia de segmentação de clientes orientada à lucratividade e seus efeitos no Lifetime Value LTV Tratase da aplicação da descoberta de conhecimento em bancos de dados KDD Knowledge Discovery in Databases Como limitações o estudo contemplará o cenário de empresas do segmento financeiro nacional dependentes do fator de inadimplência e atuando no modelo B2B Business to Business utilizando informações públicas relacionadas ao cadastro de pessoas jurídica Por meio dos resultados obtidos verificase que a metodologia segmentada de clientes orientada ao LTV contribui para as inferências sobre investimentos estruturais na formação das metas de conversão dos negócios no tempo de vida dos clientes e na definição de projetos comerciais como expansão ou abertura de novas frentes de campanhas de marketing Isso auxilia na compreensão dos limites das expectativas sobre o grau de assertividade das projeções O método portanto abre proposições relacionadas à melhoria nas variáveis CAC Customer Acquisition Cost e Churn que compõem a formulação matemática do LTV Diante disso este trabalho propõe uma metodologia de segmentação de clientes baseada em variáveis de lucratividade com o uso de algoritmos de aprendizado de máquina visando aumentar a assertividade da priorização comercial e apoiar a tomada de decisão estratégica com base em dados Para que se obtenha um maior resultado em retenção de clientes alocação eficiente de recursos e previsão do comportamento futuro dos leads e clientes atuais a proposta busca integrar técnicas de clusterização análise fatorial e modelos preditivos alinhadas ao processo de KDD possibilitando inferências mais precisas e personalizadas sobre o valor de cada cliente ao longo do tempo Palavraschave Estratégia Comercial Inteligência de Mercado Lucratividade eou Indicadores de Lucratividade Filtros de Colaborativos Cluster e Negócios ABSTRACT Organizations operating in increasingly constrained or saturated markets constantly face the challenge of retaining their customers and managing a complex sales process necessary for business progression whether by expanding existing fronts or creating new ones These organizations strive to prevent current customers from becoming inactive while prioritizing new prospects allocating budget resources to sustain the portfolio and meet strategic requirements This research aims to conduct an analytical study on the importance of profitabilityoriented customer segmentation methodology and its effects on Lifetime Value LTV It involves the application of Knowledge Discovery in Databases KDD As a limitation the study will focus on companies in the national financial sector that are dependent on default rates and operate under the B2B Business to Business model using publicly available data related to corporate registration The results show that a segmented customer approach oriented toward LTV contributes to inferences about structural investments setting business conversion goals determining customer lifetime and defining commercial projects such as expansion or the launch of new marketing campaigns This helps to better understand the limitations of expectations regarding the accuracy of projections Therefore the method introduces propositions aimed at improving variables such as CAC Customer Acquisition Cost and Churn which are part of the mathematical formulation of LTV In this context the study proposes a customer segmentation methodology based on profitability variables using machine learning algorithms to increase the accuracy of commercial prioritization and support data driven strategic decisionmaking To achieve better results in customer retention efficient resource allocation and forecasting future behavior of leads and current clients the proposed approach integrates clustering techniques factor analysis and predictive models aligned with the KDD process enabling more precise and personalized insights into each customers lifetime value Keywords Commercial Strategy Market Intelligence Profitability andor Profitability Indicators Collaborative Filtering Clustering Business LISTA DE SIGLAS E TERMOS EM INGLÊS SIGLA Descrição Explicação ACO Ant Colony Optimization é um algoritmo de otimização baseado na forma como as formigas encontram os caminhos mais curtos entre seu ninho e uma fonte de alimento AG Algoritmos Genéricos são métodos de otimização inspirados nos princípios da evolução natural e genética Eles são usados para encontrar soluções aproximadas para problemas de otimização complexos que podem ser difíceis de resolver por métodos convencionais ANOVA Analysis of Variance é uma técnica estatística utilizada para comparar as médias de três ou mais segmentos determinando diferenças estatisticamente significativas entre essas médias AntMiner é um algoritmo de mineração de dados inspirado no comportamento das colônias de formigas especificamente projetado para a tarefa de descoberta de regras de classificação em grandes conjuntos de dados Arrays são estruturas que guardam uma coleção de elementos de dados geralmente do mesmo tipo em uma sequência de memória Attention Models são mecanismos utilizados em redes neurais que permitem que a rede preste atenção a partes específicas de uma entrada durante a previsão ou a execução de uma tarefa B2B Businessto Business referese a transações comerciais realizadas entre empresas B2C Businessto consumer referese a um modelo de negócios no qual as empresas vendem produtos ou serviços diretamente aos consumidores finais Backbone é um termo usado em redes de computadores para se referir à principal infraestrutura que interliga diferentes redes locais e segmentos de rede proporcionando conectividade e transporte de dados de alta velocidade entre essas redes Big Data referese a empresas do segmento de tecnologia que agrupam e correlacionam dados disponíveis por instituições públicas ou privadas para uso empresarial Bin é uma categoria ou intervalo específico dentro do qual valores contínuos são agrupados como parte do processo de binning Binning é uma técnica de préprocessamento de dados que agrupa valores contínuos em um número menor de categorias ou bins baseandose em critérios como largura de intervalo ou frequência de observações para suavizar variações nos dados e facilitar análises posteriores Boxplot também conhecido como diagrama de caixa ou gráfico de caixa e bigodes é uma representação gráfica que resume a distribuição de um conjunto de dados numéricos através de cinco números principais o valor mínimo o primeiro quartil Q1 a mediana Q2 o terceiro quartil Q3 e o valor máximo CAC Customer Acquisition Cost referese ao custo total incorrido por uma empresa para adquirir um novo cliente CDAF CrossDomain Adaptive Framework é um modelo ou estrutura adaptativa que facilita o aprendizado e a transferência de conhecimento entre diferentes domínios CEO Chief Executive Officer o cargo de maior autoridade dentro de uma empresa ou organização Churn ou taxa de cancelamento referese à proporção de clientes ou empresas que deixam de usar os serviços ou produtos da empresa Cliente indivíduo ou organização que já realizou uma compra ou utiliza os serviços da empresa e por isso já contribuem diretamente para o lucro da empresa Cluster referese a um grupo de objetos ou pontos de dados que são semelhantes entre si e são diferentes dos objetos em outros grupos Clusterização ou clustering é um método de análise de dados utilizado para agrupar um conjunto de objetos de tal forma que objetos semelhantes sejam colocados no mesmo grupo ou cluster CRM Customer é a gestão empresarial integrada para Relationship Management analisar interações com clientes e dados ao longo do ciclo de vida dele CSV CommaSeparated Values é um modelo de arquivo utilizado para guardar dados em formato de texto simples DataFrames é uma estrutura de dados bidimensional similar a uma tabela utilizada para armazenar dados em formato de linhas e colunas É uma das principais estruturas de dados usadas em bibliotecas de análise de dados como Pandas em Python Data Mining ou mineração de dados o processo de descobrir padrões tendências e informações úteis em grandes conjuntos de dados utilizando técnicas estatísticas matemáticas de inteligência artificial e de aprendizado de máquina DBSCAN DensityBased Spatial Clustering of Applications with Noise é um algoritmo de clusterização popular usado na mineração de dados e aprendizado de máquina Ao contrário de métodos de clusterização baseados em centroides como kmeans o DBSCAN é particularmente eficaz para identificar clusters de formas arbitrárias e para lidar com outliers Decision Tree é um algoritmo de aprendizado supervisionado amplamente utilizado tanto para problemas de classificação quanto de regressão Ela representa um modelo preditivo que mapeia observações sobre um item para conclusões sobre o valor alvo do item DNN Deep Neural Network ou Rede Neural Profunda é uma rede neural artificial que possui múltiplas camadas desde a camada de entrada e a camada de saída Elbow ou método do cotovelo é uma técnica heurística utilizada para determinar o número ótimo de clusters ou agrupamentos em um algoritmo de clustering como o Kmeans encontrando um ponto de inflexão o cotovelo no gráfico Feature Based referese a uma abordagem no campo do aprendizado de máquina e mineração de dados onde o foco está nas características dos dados F2P Freetoplay referese a um modelo de negócios usado principalmente na indústria de jogos eletrônicos onde os jogadores podem acessar o jogo gratuitamente GINI coeficiente de também conhecido simplesmente como Gini é uma medida de dispersão ou desigualdade frequentemente usada em economia para quantificar a desigualdade de renda ou riqueza dentro de uma população Heatmap mapa de calor é uma representação gráfica de dados onde valores individuais contidos em uma matriz são representados por cores Heurística estratégia metodológica que seleciona e utiliza variáveis com base na experiência intuição ou práticas comprovadas Higienização Processo que envolve a remoção de duplicatas correção de erros e atualização dos dados para assegurar a precisão e a utilidade das informações evitando erros e inconsistências Insight compreensão profunda e estratégica orientando decisões de alto impacto que direcionam a empresa para o crescimento e sustentabilidade a longo prazo Interquartil é uma medida estatística da dispersão ou variabilidade de um conjunto de dados É a diferença entre o 3º quartil Q3 e o 1º quartil Q1 de um total de informações representando a faixa dos 50 centrais das informações IQR Interquartil range também conhecido como amplitude interquartil é uma medida de dispersão estatística que descreve a extensão dos valores centrais de um conjunto de dados Especificamente o IQR é a diferença entre o terceiro quartil Q3 e o primeiro quartil Q1 e representa a faixa onde se encontra os 50 centrais dos dados KDD Knowledge Discovery in Databases processo de identificar padrões atuais e novos potencialmente úteis em um grande conjunto de dados Kmeans é um algoritmo de aprendizado de máquina não supervisionado usado para resolver problemas de clustering ou agrupamentos de objetos Lead é um potencial cliente indivíduo ou empresa que demonstra interesse nos produtos ou serviços da empresa mas ainda não realizou uma compra e portanto representam potenciais fontes de lucro no futuro Lifespan Customer Lifecycle ou ciclo de vida do cliente referese ao período total durante o qual um cliente permanece ativo e gera receita para uma empresa Logit multinomial é um modelo estatístico usado para predição e classificação em situações na qual a variável dependente é categorizada com mais de duas categorias LTR Lifetime Revenue é uma métrica usada para quantificar a receita total que um cliente gera durante todo o período em que mantém um relacionamento com uma empresa LTV Lifetime Value é um conceito de marketing usado para estimar o valor total que uma empresa pode esperar receber de um cliente ao longo de todo o seu relacionamento com essa empresa Marketing conjunto de práticas e processos utilizados por organizações para promover vender produtos ou serviços Matplotlib é uma biblioteca de visualização de dados em Python que permite criar gráficos estáticos e interativos Missingno é uma biblioteca em Python projetada para visualizar e diagnosticar valores ausentes em conjuntos de dados NumPy Numerical Python é uma biblioteca de código aberto para a linguagem de programação Python que fornece para suporte para arrays e matrizes multidimensionais juntamente com uma coleção de funções matemáticas de alto nível para operar esses arrays Outlier é um ponto de dados que difere significativamente dos outros pontos de um conjunto de dados geralmente a maior Pandas é uma biblioteca para análise e manipulação de dados em Python Pipeline é um termo amplamente utilizado em tecnologia e ciência de dados que se refere a uma série de etapas sequenciais pelas quais os dados ou tarefas passam desde o início até a conclusão PnP PlugandPlay é um termo usado para descrever dispositivos de hardware ou software que são projetados para funcionar com um mínimo de configuração e intervenção do usuário Prospects clientes ou empresas que tem potencial para se tornarem clientes da empresa no futuro Python é uma linguagem de programação de alto nível amplamente utilizada que oferece uma ampla biblioteca padrão facilitando a extensão de sua funcionalidade para praticamente qualquer tarefa Recall também conhecido como sensibilidade ou taxa de verdadeiros positivos é uma métrica de desempenho utilizada na avaliação de modelos de classificação Ele mede a capacidade do modelo de identificar corretamente todas as ocorrências positivas verdadeiros positivos dentro do conjunto de dados RF Randon Forest é um algoritmo de aprendizado em conjunto usado tanto para classificação quanto para regressão RNA Redes Neurais Artificiais são algoritmos de aprendizado de máquina com funcionamento similar ao cérebro humano São compostas por unidades interligadas chamadas neurônios artificiais organizadas em camadas As RNAs são usadas para uma variedade de tarefas incluindo classificação regressão e reconhecimento de padrões RNN Recurrent Neural Network ou rede neural recorrente é um tipo de rede neural artificial projetada para reconhecer padrões em sequências de dados como séries temporais texto ou áudio Scikitlearn é uma biblioteca de código aberto para aprendizado de máquina em Python Ela oferece uma vasta gama de ferramentas eficientes e fáceis de usar para mineração de dados e análise de dados Seaborn é uma biblioteca de visualização de dados em Python com base no Matplotlib Ela fornece interface de alto nível para desenho de gráficos estatísticos informativos Seq2Seq Sequenceto Sequence Learning é uma abordagem de aprendizado profundo que mapea uma sequência de entrada para uma sequência de saída frequentemente utilizada em tarefas onde a saída não tem a mesma duração que a entrada Silhouette é uma técnica de avaliação de clusterização que mede a qualidade de uma segmentação de dados Ela quantifica o quão bem cada ponto de dados foi agrupado comparando a coesão dentro do cluster e a separação entre clusters SQL Structured Query Language é uma linguagem de programação útil para estudos das informações em bancos de dados relacionais SSE Sum of Squared Errors Soma dos Erros Quadráticos Subplot é um termo utilizado em visualização de dados para se referir a múltiplos gráficos ou figuras exibidas em uma única tela ou página organizados em uma grade Testes T são testes estatísticos utilizados para comparar as médias de dois grupos e determinar se as diferenças observadas entre as médias são estatisticamente significativas TIC Tecnologia da Informação e Comunicação referemse ao conjunto de recursos tecnológicos e de comunicação utilizados para a criação armazenamento processamento transmissão e disseminação de informações ZILN ZeroInflated Lognormal é um modelo estatístico utilizado para lidar com dados que possuem uma alta proporção de zeros juntamente com valores contínuos que seguem uma distribuição lognormal LISTA DE FIGURAS Figura 1 Uma visão geral das etapas que compõem o processo KDD Figura 2 Boxplot 46 Figura 3 Exemplificação Gráfica Elbow 64 Figura 04 Gráfico da Pontuação de Silhueta em função do número de clusters Figura 5 Visualização dos clusters gerados pelo KMeans com redução PCA Figura 6 Scree Plot Distribuição dos Autovalores por Componente Principal Figura 7 Scree Plot dos Autovalores por Componente Principal Figura 8 Comparação entre abordagens de classificação interpretabilidade desempenho preditivo e complexidade computacional Figura 9 Exemplo esquemático de uma árvore de decisão simulando a classificação de clientes com base em perfil e comportamento Figura 10 Estrutura de Funcionamento de um Algoritmo Genético Figura 11 Proposta de segmentação de clientes baseado no valor ao longo da sua vida e na sua lealdade à marca Figura 12 Matriz de correlação entre Faturamento e Quantidade de Funcionários Figura 13 Gráfico do método do cotovelo para definição do número de clusters dados brutos Figura 14 Gráfico do método do cotovelo com transformação logarítmica do Faturamento Figura 15 Distribuição dos clusters considerando Faturamento original e Quantidade de Funcionários Figura 16 Distribuição dos clusters considerando Faturamento transformado em log e Quantidade de Funcionários Figura 17 Relação entre CAC e LTV médios por cluster LISTA DE FIGURAS Tabela 1 Resumo dos clusters com métricas médias de negócio SUMÁRIO 1 INTRODUÇÃO1 11 DESCRIÇÃO DO PROBLEMA2 12 OBJETIVOS3 121 OBJETIVO GERAL3 122OBJETIVOS ESPECÍFICOS4 13 JUSTIFICATIVA DO TRABALHO4 14 LIMITAÇÕES DO TRABALHO5 15 ESTRUTURA DO TRABALHO7 2REVISÃO DA LITERATURA9 21 PROCESSO DE KNOWLEDGE DISCOVERY IN DATABASE KDD9 211 TRATAMENTO DE DADOS11 2111 ELIMINANDO RUÍDOS E INCONSISTÊNCIAS12 2112 TRATANDO VALORES AUSENTES14 2113 NORMALIZAÇÃO DOS DADOS16 2114 OUTLIERS BOXPLOT17 21141 ESTRUTURA E COMPONENTES DE UM BOXPLOT19 2115 USO DO PYTHON21 21151 PANDAS22 21152 NUMPY23 21153SCIKITLEARN24 21154 MATPLOTLIB26 21155 SEABORN27 21156 MISSINGNO28 212 TRANSFORMAÇÃO DE DADOS30 2121 MÉTODO DE CLUSTERIZAÇÃO30 21211 ELBOW32 21212 SILHOUETTE33 2122 KMEANS35 2123 ANÁLISE FATORIAL36 2124 ANALISE DE COMPONENTES PRINCIPAIS PCA38 213 DATA MINING PARA CLASSIFICAÇÃO40 2131 ALGORITMOS DE CLASSIFICAÇÃO40 2132 DECISION TREE ARVORES DE DECISÃO PARA REGRAS DE CLASSIFICAÇÃO42 2133 RF RANDOM FOREST43 2134 RNA REDES NEURAIS ARTIFICIAIS45 2135 AG ALGORITMOS GENÉTICOS46 22 SEGMENTAÇÃO DE CLIENTES48 221 PUREZA E UNIFORMIDADE DOS SEGMENTOS49 222 DIFERENCIAÇÃO ENTRE SEGMENTO51 223 MATRIZ DE CONFUSÃO52 224 TESTES E HIPÓTESES54 225 ANÁLISE DE CORRELAÇÃO ENTRE SEGMENTOS E VARIÁVEIS DE NEGÓCIOS55 226 INTERPRETAÇÃO DOS RESULTADOS E INDICADORES56 227 CAC e LTV57 23 SEGMENTAÇÃO DE CLIENTES B2B63 231 CRITÉRIOS RELEVANTES PARA SEGMENTAÇÃO B2B65 2311 CRITÉRIOS FINANCEIROS65 2312CRITÉRIOS COMPORTAMENTAIS66 2313 CRITÉRIOS ESTRATÉGICOS67 232 TÉCNICAS QUANTITATIVAS PARA SEGMENTAÇÃO B2B68 233 DESAFIOS ATUAIS E PERSPECTIVAS FUTURAS70 3 TRABALHOS CORRELATOS71 4 METODOLOGIA78 41 TIPO DE PESQUISA78 42 PROCEDIMENTOS METODOLÓGICOS79 43 FERRAMENTAS E SOFTWARES81 44 LIMITAÇÕES METODOLÓGICAS81 441 PRÉ PROCESSAMENTO82 442 ANÁLISE ESTATÍSTICA84 443 MINERAÇÃO DE DADOS86 444 SIMULAÇÃO DE MÉTRICAS DE NEGÓCIO93 RESULTADOS96 DISCUSSÃO98 CONCLUSÃO99 REFERÊNCIAS BIBLIOGRÁFICAS101 Obs Em andamento o trabalho está ganhando forma obrigado 1 1 INTRODUÇÃO No atual cenário corporativo empresas inseridas em mercados saturados enfrentam desafios significativos para manter sua base de clientes ativa e simultaneamente expandir suas operações comerciais em um ambiente altamente competitivo Com a intensificação da concorrência e a crescente exigência dos consumidores tornase cada vez mais difícil preservar o engajamento e a lealdade do públicoalvo apenas com abordagens tradicionais Nesse contexto destacase a necessidade de estratégias bem estruturadas que sustentem o relacionamento com os clientes já conquistados evitando sua inatividade e possível evasão Para tanto muitas organizações alocam recursos significativos em seus orçamentos não apenas para viabilizar campanhas de fidelização mas também para garantir o cumprimento de metas comerciais e objetivos estratégicos Tais metas por sua vez costumam ser fundamentadas em projeções de longo prazo frequentemente amparadas em inferências heurísticas e planejamentos orientados por experiências anteriores e tendências de mercado É nesse ambiente desafiador que emergem metodologias e técnicas orientadas por dados com o propósito de auxiliar gestores na identificação das reais necessidades de seus clientes e prospects O termo prospects amplamente utilizado no meio empresarial referese a indivíduos ou empresas que ainda não realizaram uma compra mas que apresentam perfil compatível com os critérios do públicoalvo da organização configurandose como potenciais clientes No presente trabalho o termo será mantido em sua forma original em inglês respeitando seu uso consagrado no contexto comercial e de marketing Com o auxílio dessas ferramentas os gestores podem descobrir padrões comportamentais e desenhar ofertas personalizadas que atendam de maneira simultânea às expectativas dos clientes e às metas de rentabilidade das empresas Entre as ferramentas que vêm se destacando nas estratégias comerciais contemporâneas merece destaque o LTV Lifetime Value ou valor do tempo de vida do cliente Tratase de uma métrica essencial no monitoramento da rentabilidade de cada cliente ao longo de seu relacionamento com a empresa Segundo Olnén 2022 o LTV representa o montante total que um cliente pode gerar em receita sendo especialmente útil para mensurar o sucesso das estratégias de retenção e para orientar investimentos em ações comerciais específicas Quando bem utilizado o LTV permite que empresas identifiquem os clientes com maior potencial de retorno otimizando os esforços de fidelização e personalização de serviços Complementando essa visão Wu et al 2023 destacam que a aplicação do LTV tem impactos diretos na ampliação da margem de lucro pois orienta a criação de ofertas mais assertivas ações proativas de relacionamento e intervenções estratégicas voltadas para retenção Além disso permite um gerenciamento mais inteligente de clientes com baixa geração de receita promovendo o redirecionamento de recursos para segmentos mais rentáveis e viabilizando o planejamento de futuras oportunidades comerciais a partir do valor acumulado de cada perfil de cliente 2 Dessa forma esta pesquisa se propõe a realizar um estudo baseado em dados públicos de mercado oriundos de bases amplas e abertas comumente associadas ao conceito de Big Data A proposta metodológica foi concebida pela autora com base em variáveis escolhidas de forma tanto heurística quanto estratégica levando em consideração as particularidades do produto ou serviço de interesse geralmente estruturado sob a forma de campanhas de marketing direcionadas ou perfis ideais de clientes O objetivo central é demonstrar a relevância da segmentação inteligente de leads priorizando estrategicamente as ações de prospecção e o gerenciamento cotidiano da área comercial com foco na maximização da rentabilidade e na eficiência operacional Nesse cenário os sistemas de recomendação ganham protagonismo como ferramentas essenciais para impulsionar as vendas e refinar as estratégias de marketing Tais sistemas atuam tanto na atração de novos clientes quanto na fidelização dos já existentes proporcionando experiências mais personalizadas e consequentemente mais eficazes A filtragem colaborativa uma das técnicas mais consolidadas nesse campo vem sendo constantemente aprimorada por meio da integração com abordagens analíticas diversas ampliando sua capacidade de gerar recomendações relevantes e contextualizadas Entre essas abordagens destacase a proposta deste estudo que consiste na integração entre o processo de Descoberta de Conhecimento em Bancos de Dados Knowledge Discovery in Databases KDD e os sistemas de recomendação colaborativos O KDD ao explorar grandes volumes de dados e extrair padrões relevantes permite a construção de insights mais profundos e personalizados o que eleva significativamente a qualidade das decisões comerciais baseadas em dados Essa sinergia entre sistemas inteligentes e mineração de dados representa um avanço importante na busca por estratégias comerciais mais embasadas e preditivas Conforme Fayyad et al 1996 o KDD assume papel estratégico ao transformar dados brutos em conhecimento aplicável permitindo que decisões importantes sejam tomadas com base em informações robustas estruturadas e alinhadas aos objetivos organizacionais Os autores reforçam que a utilização do KDD em sistemas de apoio à decisão comercial não apenas aumenta a eficiência analítica mas também fortalece a capacidade das empresas de responder de forma ágil e fundamentada às dinâmicas do mercado 11 DESCRIÇÃO DO PROBLEMA O processo de tomada de decisão do planejamento comercial baseiase em duas etapas fundamentais e interdependentes uma etapa tática e outra estratégica Na etapa tática predomina uma abordagem analítica e racional baseada em dados concretos indicadores de desempenho e cálculos numéricos que sustentam decisões objetivas Essa fase é orientada por métricas quantificáveis como faturamento margem de contribuição taxa de conversão entre outros No entanto embora a racionalidade seja o eixo principal não se descarta a presença de inferências pontuais derivadas de situações excepcionais como alterações políticas internas sazonalidades específicas ou ocorrências de outliers isto é registros que 3 fogem ao padrão estatístico mas que podem sinalizar oportunidades ou ameaças relevantes ao planejamento Tais exceções embora menos frequentes são levadas em consideração por sua capacidade de alterar os rumos táticos mesmo quando não previstas pelos modelos matemáticos tradicionais Na etapa estratégica por sua vez o foco se desloca para uma visão mais holística e de longo prazo Aqui o papel dos gestores de alto escalão se torna mais proeminente pois são eles que baseandose em sua vivência conhecimento acumulado do setor e leitura do ambiente externo contribuem com interpretações e julgamentos subjetivos Esses insights derivados de experiências anteriores ou da sensibilidade diante de sinais do mercado são fundamentais para orientar decisões que extrapolam a objetividade dos números permitindo um direcionamento mais robusto das metas comerciais e dos investimentos futuros Essa combinação entre análise empírica e intuição estratégica busca alinhar a empresa às transformações do mercado promovendo um crescimento sustentável e planejado Desta forma a presente pesquisa está relacionada principalmente à etapa tática Visa gerar uma metodologia que define quais os leads e clientes do universo mapeado previamente necessitam de priorização de ações de relacionamento ou prospecção Em decorrência da metodologia proposta a ser apresentada no decorrer do trabalho as contribuições da aplicação de um método de segmentação de clientes com adoção de variáveis de lucratividade para alavancagem da estratégia comercial tornase uma possibilidade real e prática para aumentar a produtividade da área comercial Previsões fundamentadas em indicadores de lucratividade como o LTV não apenas ajudam o planejamento financeiro da empresa mas também contribuem para melhores decisões de marketing e orientam o gerenciamento de relacionamento com o cliente CRM WANG et al 2019 12 OBJETIVOS 121 OBJETIVO GERAL Desenvolver uma metodologia de segmentação de clientes que permita de forma sistematizada e baseada em dados a identificação de características específicas e recorrentes de cada grupo formado a partir de variáveis comerciais relevantes A proposta visa estruturar a definição de segmentos com base em critérios tanto quantitativos quanto qualitativos considerando aspectos operacionais financeiros e comportamentais dos clientes Além disso objetivase incorporar à metodologia variáveis diretamente relacionadas à lucratividade como o Faturamento e o Custo de Aquisição de Clientes CAC de modo a gerar inferências consistentes e aplicáveis ao indicador Lifetime Value LTV A abordagem busca oferecer suporte técnico e estratégico à operação comercial permitindo decisões mais assertivas sobre prospecção retenção e priorização de contas no ambiente B2B com foco no 3 4 aumento da rentabilidade e na otimização do relacionamento com os clientes ao longo do tempo 122OBJETIVOS ESPECÍFICOS Serão explorados os seguintes objetivos específicos Identificar a partir da literatura especializada os principais critérios utilizados na segmentação de leads e clientes no ambiente B2B considerando tanto abordagens tradicionais quanto modelos contemporâneos de marketing orientado por dados de forma a compreender como diferentes variáveis demográficas comportamentais financeiras e relacionais influenciam a categorização de perfis de empresas e tomadores de decisão Analisar o conceito de Lifetime Value LTV e sua utilização como métrica orientadora em estratégias de segmentação de clientes com ênfase em sua aplicabilidade prática para estimar o potencial de receita futura orientar investimentos comerciais priorizar contas estratégicas e subsidiar decisões sobre retenção upsell e alocação de recursos Investigar modelos teóricos de pontuação de leads com base em variáveis relacionadas à rentabilidade e ao ciclo de vida do cliente buscando compreender como sistemas de classificação podem apoiar a definição de prioridades de prospecção e engajamento em contextos empresariais com orçamentos limitados e metas de alta conversão Revisar os fundamentos do processo de descoberta de conhecimento em bases de dados KDD e suas aplicações na organização e interpretação de dados analisando cada etapa do fluxo desde a seleção préprocessamento e mineração até a avaliação e visualização de padrões com vistas à geração de insights acionáveis e sustentáveis para uso estratégico no ambiente comercial Examinar à luz de estudos existentes a influência de percepções gerenciais e experiências de mercado na tomada de decisão estratégica em contextos comerciais compreendendo de que maneira fatores subjetivos e heurísticos interagem com os dados quantitativos para formar estratégias híbridas que conciliam análise baseada em evidências com a intuição executiva 13 JUSTIFICATIVA DO TRABALHO A presente dissertação justificase pelo interesse em aprofundar a discussão acadêmica sobre metodologias de segmentação de clientes no contexto B2B com base em métricas de lucratividade como o Lifetime Value LTV Em mercados cada vez mais competitivos e orientados por dados a capacidade de identificar os clientes mais valiosos e direcionar esforços de maneira estratégica tornouse um diferencial crítico para empresas que buscam maximizar o retorno sobre seus investimentos 5 comerciais Nesse sentido a segmentação orientada por valor tem sido amplamente destacada em estudos recentes como uma abordagem eficaz para subsidiar decisões tanto estratégicas quanto operacionais especialmente em setores que demandam racionalização de recursos e gestão otimizada de carteiras de clientes WU et al 2023 WANG et al 2019 A análise da literatura especializada evidencia que as práticas de segmentação com apoio de algoritmos e modelos preditivos vêm se consolidando como importantes ferramentas de suporte técnico à tomada de decisão Em particular a integração desses métodos ao processo de descoberta de conhecimento em bases de dados KDD Knowledge Discovery in Databases amplia significativamente a capacidade de transformar grandes volumes de dados brutos em informações relevantes e acionáveis Essa abordagem conforme discutido por Fayyad et al 1996 Han Kamber e Pei 2011 permite a construção de modelos analíticos robustos com potencial para revelar padrões ocultos no comportamento de clientes e apoiar estratégias comerciais baseadas em evidências Além disso a relevância da presente pesquisa também se justifica pela necessidade de compreender em profundidade como métricas como o CAC Customer Acquisition Cost e o churn taxa de evasão de clientes impactam diretamente na modelagem do LTV influenciando a priorização de ações comerciais e a alocação eficiente de recursos Tais indicadores quando utilizados de forma integrada à segmentação de clientes permitem não apenas projetar o valor futuro das contas existentes mas também identificar os perfis que representam maior risco ou menor retorno otimizando a performance da área de vendas e relacionamento Nesse contexto esta dissertação propõe a estruturação teórica de uma metodologia que considere tanto dados objetivos quantitativos típicos da etapa tática do planejamento quanto percepções subjetivas e gerenciais qualitativas típicas da etapa estratégica conforme referenciado por autores como Kanchanapoom e Chongwatpol 2022 A proposta busca assim refletir a realidade híbrida da gestão comercial que combina métricas precisas com a experiência acumulada dos gestores no trato com o mercado Tratase portanto de um estudo de caráter exploratório baseado em fontes secundárias e fundamentado em uma ampla revisão de literatura científica nacional e internacional Ao abordar a segmentação de clientes orientada à rentabilidade no escopo do modelo B2B esperase que esta pesquisa contribua de forma relevante para o avanço do debate metodológico na área de marketing analítico e inteligência comercial fornecendo subsídios para práticas mais eficientes sustentáveis e alinhadas às exigências do mercado contemporâneo 14 LIMITAÇÕES DO TRABALHO Este estudo apresenta algumas limitações que devem ser consideradas tanto no delineamento da proposta metodológica quanto na análise dos resultados obtidos A seguir são detaladas as principais restrições identificadas no desenvolvimento desta pesquisa 5 6 Amostra de dados secundários a metodologia proposta foi aplicada a um conjunto de dados secundários de acesso público o que limita a profundidade da análise em relação a setores específicos ou perfis de clientes com características muito particulares Como a base de dados utilizada não foi customizada para os objetivos específicos deste estudo pode haver lacunas em variáveis relevantes ou distorções provocadas pela falta de atualização ou pela forma de coleta dos dados originais Variabilidade das variáveis utilizadas na segmentação a segmentação foi construída com base em um conjunto restrito de variáveis quantitativas como faturamento número de funcionários e métricas simuladas de lucratividade ex LTV Embora essas variáveis sejam amplamente referenciadas na literatura sua adoção representa apenas uma fração das dimensões que poderiam compor o perfil completo de um cliente Aspectos como comportamento de compra histórico de relacionamento ou perfil de decisão foram considerados fora do escopo deste estudo o que pode impactar a riqueza da segmentação Complexidade dos modelos analisados mesmo sem a execução de testes empíricos avançados a compreensão conceitual de técnicas como clusterização análise de agrupamento e métricas preditivas exige certo grau de familiaridade com fundamentos estatísticos e algoritmos de machine learning Essa complexidade técnica pode dificultar a aplicação prática por profissionais de áreas comerciais ou de marketing que não possuem formação especializada em ciência de dados ou análise quantitativa Influência de fatores externos a proposta metodológica assume um contexto de estabilidade relativa nas condições de mercado No entanto fatores macroeconômicos institucionais ou regulatórios como crises econômicas alterações tributárias ou mudanças tecnológicas abruptas podem interferir significativamente nos padrões históricos de comportamento dos clientes afetando a validade dos modelos de segmentação construídos com base em dados anteriores Subjetividade dos insights gerenciais uma parte relevante da análise estratégica deriva da experiência e da interpretação dos gestores o que introduz uma dimensão subjetiva à metodologia Essa variabilidade na percepção pode gerar diferentes conclusões a partir de um mesmo conjunto de dados dificultando a padronização da abordagem e reduzindo sua reprodutibilidade em contextos distintos Resistência à adoção de novos métodos a integração de técnicas de análise de dados ao processo decisório comercial ainda enfrenta resistência em muitas organizações seja por barreiras culturais ausência de infraestrutura tecnológica ou limitação de competências analíticas das equipes Essa resistência pode comprometer a efetividade da implementação prática da metodologia proposta 7 Validade temporal dos dados por fim destacase que a base de dados utilizada representa uma fotografia estática de um determinado momento no tempo Dado o dinamismo dos mercados e a velocidade com que os perfis de consumo e relacionamento se transformam é possível que os agrupamentos e inferências gerados percam validade em curto ou médio prazo se não forem atualizados periodicamente Essa limitação reforça a necessidade de reavaliações frequentes do modelo para garantir sua aderência à realidade comercial vigente 15 ESTRUTURA DO TRABALHO A organização deste trabalho foi planejada de modo a proporcionar uma leitura fluida clara e didática permitindo ao leitor compreender todas as etapas da pesquisa desde a contextualização do problema até os resultados obtidos e suas possíveis aplicações práticas O conteúdo foi estruturado em capítulos que se complementam e oferecem uma visão completa do processo investigativo e da proposta de segmentação de clientes utilizando técnicas de ciência de dados A seguir descrevese detalhadamente a composição de cada capítulo Capítulo 1 Introdução Este capítulo apresenta o contexto geral da pesquisa situando o leitor em relação ao tema estudado e sua relevância no ambiente corporativo especialmente no setor B2B São descritos o problema de pesquisa os objetivos gerais e específicos do estudo bem como sua justificativa com base na importância da segmentação como estratégia para aprimorar a eficiência comercial das empresas Além disso são mencionadas as limitações encontradas no desenvolvimento da pesquisa e é detalhada a estrutura adotada no corpo do trabalho Capítulo 2 Revisão da Literatura Neste capítulo são discutidos os principais conceitos teóricos que fundamentam o estudo reunindo contribuições de autores relevantes na área de marketing ciência de dados e inteligência de negócios A revisão aborda o processo de KDD Knowledge Discovery in Databases destacando etapas como o tratamento e transformação dos dados além da aplicação de técnicas de mineração para fins de classificação e agrupamento São apresentados também os fundamentos da segmentação de clientes com foco nos desafios específicos do mercado B2B e discutidas as métricas CAC Custo de Aquisição de Clientes e LTV Lifetime Value 7 8 que oferecem base para decisões mais estratégicas nas áreas de vendas e marketing Capítulo 3 Trabalhos Correlatos Esta seção apresenta uma análise comparativa de pesquisas e projetos acadêmicos que abordam temas semelhantes ao proposto neste estudo A identificação de abordagens metodológicas e resultados obtidos por outros autores contribui para validar a relevância do problema estudado além de indicar caminhos já explorados e oportunidades de aprofundamento ainda pouco discutidas na literatura Capítulo 4 Metodologia O capítulo metodológico descreve de forma detalhada os procedimentos adotados para a execução da pesquisa prática São explicadas as etapas de preparação e análise dos dados a escolha do algoritmo KMeans para a clusterização dos clientes e a simulação das métricas de negócio utilizadas para avaliação dos grupos Também são listadas as ferramentas e linguagens de programação utilizadas no processo como Python e bibliotecas como Pandas Scikitlearn e Matplotlib além das justificativas para as decisões tomadas ao longo do desenvolvimento do experimento Capítulo 5 Resultados e Discussão Aqui são apresentados os resultados obtidos com a aplicação do modelo de clusterização com destaque para as características e médias de cada grupo identificado Os dados são discutidos à luz dos objetivos do trabalho evidenciando como a segmentação pode auxiliar na tomada de decisões mais inteligentes no relacionamento com os clientes Também são discutidas as implicações práticas de cada cluster com sugestões de estratégias específicas de atendimento marketing e retenção Conclusão 9 A conclusão retoma os objetivos propostos inicialmente e avalia o grau em que foram atingidos Também são destacados os principais achados do trabalho e suas contribuições para o campo da gestão comercial e da ciência de dados aplicada ao marketing Por fim são apresentadas sugestões de continuidade da pesquisa indicando formas de aprimorar o modelo proposto com o uso de dados mais completos ou técnicas mais avançadas de aprendizado de máquina Referências Esta seção contém a lista completa das obras artigos livros e materiais utilizados ao longo do desenvolvimento da pesquisa devidamente organizados conforme as normas da Associação Brasileira de Normas Técnicas ABNT permitindo que o leitor identifique as fontes consultadas para aprofundamento Anexos Por fim os anexos reúnem os elementos complementares que não foram incluídos no corpo principal do texto por questões de fluidez mas que são importantes para demonstrar a aplicação prática do trabalho como códigosfonte utilizados nas análises tabelas completas gráficos e prints do ambiente de desenvolvimento 2REVISÃO DA LITERATURA 21 PROCESSO DE KNOWLEDGE DISCOVERY IN DATABASE KDD A exploração de conhecimento em bancos de dados KDD Knowledge Discovery in Databases é um processo que se dedica à extração de informações valiosas e conhecimento a partir de grandes conjuntos de dados Esse processo abrange diversas etapas críticas desde a seleção e preparação inicial dos dados até a mineração efetiva dos dados em si e a interpretação dos resultados obtidos Han et al 2011 destacam que o processo de KDD envolve a limpeza integração seleção e transformação dos dados antes da aplicação de técnicas de mineração para extrair padrões significativos A relevância do KDD tem crescido juntamente com o aumento na quantidade de dados produzidos e armazenados o que impulsiona a demanda por métodos eficazes para embasar decisões em dados e gerar insights estratégicos No contexto 9 10 do KDD a precisão dos dados é fundamental Dados imprecisos incompletos ou irrelevantes podem levar a conclusões equivocadas e prejudicar a utilidade dos insights descobertos Assim sendo um componente vital do processo de KDD consiste na preparação preliminar dos dados incluindo atividades como limpeza normalização e transformação HAN et al 2011 Tais técnicas contribuem para assegurar que os dados utilizados na mineração sejam tão precisos e completos quanto possível otimizando dessa forma a qualidade das informações derivadas Segundo Han et al 2011 a qualidade dos dados é crucial para o sucesso da mineração de dados pois a eficácia dos algoritmos de mineração depende diretamente da qualidade dos dados que recebem como entrada Um exemplo prático da aplicação das técnicas de KDD pode ser observado no estudo realizado por Ekstrand et al 2010 que investiga os sistemas colaborativos de recomendação Os autores abordam estratégias de filtragem colaborativa que são fundamentais para compreender as escolhas dos utilizadores e oferecer sugestões personalizadas Este estudo ilustra como o KDD pode ser empregado para aprimorar a exatidão e a pertinência das recomendações em plataformas interativas algo essencial para a experiência do utilizador e para a garantia da qualidade da análise Fayyad et al 1996 dizem que o KDD é um campo interdisciplinar focado na extração de informações úteis de grandes conjuntos de dados Os autores detalham que o processo de KDD pode envolver várias etapas incluindo seleção de dados limpeza enriquecimento e transformação de dados além da aplicação de algoritmos de mineração de dados para encontrar padrões significativos Destacam também que a crescente importância do KDD se deve ao aumento do volume de dados disponíveis e portanto é imprescindível a crescente necessidade de métodos eficazes para análise desses dados A compreensão do processo de KDD não apenas revela a complexidade envolvida na manipulação de grandes volumes de dados mas também sublinha a necessidade de uma abordagem estruturada para extrair conhecimento valioso 11 desses dados Como ilustrado na Figura 01 o processo de KDD é composto por uma série de etapas interconectadas que começam com a seleção de dados e seguem por meio da seleção tratamento de dados e transformação deles Essas etapas preparatórias são cruciais para assegurar a qualidade dos dados antes de aplicar algoritmos de mineração de dados A Figura 01 destaca a natureza iterativa do processo KDD mostrando como cada etapa contribui para refinar os dados até que padrões significativos possam ser descobertos e verificados A visualização oferecida pela figura não só esclarece os componentes individuais do processo mas também demonstra como eles estão interligados reforçando a ideia de que o sucesso na mineração de dados depende da sua meticulosa preparação e análise Este fluxo estruturado é essencial para enfrentar o desafio imposto pelo crescente volume de dados Por meio de uma análise cuidadosa as organizações podem transformar uma grande quantidade de dados brutos em insights relevantes e aplicáveis que são críticos para a tomada de decisões informadas e estratégicas Portanto a figura 01 não apenas serve como um mapa visual das etapas do KDD mas também como uma ferramenta fundamental para entender a interdependência dessas etapas no contexto da descoberta de conhecimento em bases de dados Figura 1 Uma visão geral das etapas que compõem o processo KDD Fonte Fayyad et al 1996 211 TRATAMENTO DE DADOS 11 12 A etapa de tratamento de dados no processo de exploração de conhecimento em bancos de dados KDD desempenha um papel importante garantindo a confiabilidade e usabilidade dos dados para análises subsequentes Durante essa fase é essencial realizar a identificação de ruídos resolver inconsistências e preparar os dados adequadamente para permitir que os algoritmos de mineração funcionem com eficácia Isso inclui tarefas como padronização de formatos preenchimento ou remoção de valores ausentes detecção de outliers e conversão de variáveis categóricas em representações numéricas apropriadas Tais procedimentos não apenas aumentam a acurácia dos modelos mas também reduzem o tempo de processamento e evitam distorções nos resultados Segundo Cheng e Chen 2009 o tratamento e o préprocessamento são elementoschave para o êxito dos algoritmos de agrupamento utilizados em sistemas de CRM pois impactam diretamente na formação de clusters mais coesos e úteis para a tomada de decisão 2111 ELIMINANDO RUÍDOS E INCONSISTÊNCIAS Remover o excesso de informações ruídos e inconsistências representa uma etapa fundamental na preparação dos dados para o processo de Knowledge Discovery in Databases KDD uma vez que dados imprecisos ou com baixa qualidade podem comprometer significativamente os resultados obtidos nas etapas subsequentes de mineração e análise A presença de valores duplicados erros de entrada lacunas ou informações incoerentes tende a distorcer os padrões e correlações descobertos levando a decisões equivocadas e interpretações falhas Além disso quanto maior o volume de dados e mais diversas as fontes envolvidas maior a complexidade dos problemas de qualidade que podem surgir exigindo metodologias mais robustas para sua resolução De acordo com Han Kamber e Pei 2011 o préprocessamento dos dados é composto por diversas técnicas incluindo o preenchimento de valores ausentes a suavização de ruídos a correção de inconsistências a detecção e remoção de outliers além da padronização e transformação de atributos Essas etapas são essenciais para garantir a integridade a completude e a utilidade do conjunto de dados antes de sua exploração analítica A negligência nessa fase pode comprometer a construção de modelos de aprendizado gerar viés nos resultados e dificultar a replicabilidade dos experimentos analíticos afetando diretamente a tomada de decisões Entre os métodos mais comuns de suavização destacamse os filtros de média e mediana que substituem valores individuais por médias ou medianas calculadas a partir de seus vizinhos mais próximos reduzindo assim a variabilidade 13 aleatória Já a suavização por binning agrupa os dados em intervalos bins e ajusta os valores com base em estatísticas internas de cada intervalo promovendo homogeneidade local A suavização por regressão por sua vez ajusta uma função matemática linear ou não linear aos dados permitindo a identificação e atenuação de tendências ou flutuações acentuadas Essas técnicas são particularmente úteis em conjuntos de dados com alta variabilidade como séries temporais financeiras dados de sensores ou registros de comportamento de usuários A detecção de outliers é outra etapa crítica pois esses valores atípicos podem interferir negativamente nos resultados dos modelos estatísticos e algoritmos de aprendizado de máquina Métodos estatísticos convencionais baseados em medidas de tendência central e dispersão como média e desvio padrão são frequentemente utilizados para identificar e remover esses pontos anômalos Contudo técnicas mais avançadas como o algoritmo DBSCAN DensityBased Spatial Clustering of Applications with Noise proposto por Ester et al 1996 têm se mostrado eficazes para detectar outliers em grandes volumes de dados multidimensionais pois consideram a densidade local de pontos ao invés de simples critérios globais A combinação de métodos estatísticos e algoritmos de aprendizado não supervisionado é em muitos casos recomendada para garantir maior precisão na detecção desses casos extremos Além disso inconsistências nos dados muitas vezes resultantes da fusão de diferentes bases de dados erros de digitação ou atualizações mal conduzidas devem ser tratadas por meio de inspeções manuais validações cruzadas e aplicação de regras de integridade baseadas no domínio dos dados Isso inclui a verificação de chaves primárias integridade referencial formatos esperados e padrões semânticos consistentes O uso de ferramentas automatizadas de data cleaning também tem ganhado espaço especialmente em contextos que envolvem grandes volumes de dados e necessidade de escalabilidade Ferramentas como Talend Trifacta e Apache Nifi vêm sendo amplamente adotadas para automatizar processos de limpeza enriquecimento e integração de dados em pipelines modernas de engenharia de dados Complementando esse panorama Do e Batzoglou 2008 em estudos voltados para bioinformática destacam a importância da normalização e padronização como elementos fundamentais para garantir a comparabilidade entre conjuntos de dados heterogêneos Essas técnicas ajustam os dados para uma escala comum prevenindo que atributos com magnitudes diferentes dominem o processo de mineração A normalização é especialmente importante em algoritmos baseados em distância como kmeans redes neurais e máquinas de vetor de suporte nos quais variáveis em escalas distintas podem afetar desproporcionalmente a formação de padrões e decisões de agrupamento No campo dos sistemas de recomendação Ekstrand Riedl e Konstan 2010 demonstram como abordagens sofisticadas de filtragem de dados incluindo técnicas baseadas em conteúdo e colaborativas dependem fortemente da qualidade e coerência dos dados de entrada Uma base mal preparada pode gerar recomendações irrelevantes ou enviesadas prejudicando a experiência do usuário e reduzindo a eficácia dos sistemas inteligentes Nesses cenários a etapa de 13 14 tratamento e préprocessamento influencia diretamente a confiabilidade dos sistemas e sua aceitação por parte dos usuários finais Assim a manipulação criteriosa e sistemática das informações tornase essencial não apenas para garantir a acurácia dos modelos e interpretações derivadas da mineração de dados mas também para assegurar a reprodutibilidade dos resultados e sua aplicabilidade em contextos reais A qualidade dos dados está diretamente relacionada à capacidade da organização de extrair conhecimento confiável relevante e acionável contribuindo de forma decisiva para a orientação estratégica e a geração de vantagem competitiva sustentada O investimento em boas práticas de preparação de dados deve ser encarado como parte fundamental da cultura analítica das empresas impactando diretamente os resultados de curto e longo prazo Em síntese a preparação adequada dos dados não é uma etapa acessória mas sim uma condição sine qua non para o sucesso de qualquer projeto baseado em análise de dados No contexto corporativo essa etapa representa a base sobre a qual serão construídas as estratégias analíticas e preditivas justificando o investimento em processos e ferramentas que garantam a excelência na gestão da informação A negligência nesse estágio pode comprometer toda a cadeia de valor analítico enquanto sua execução cuidadosa abre caminho para decisões mais eficazes processos mais eficientes e inovação orientada por dados 2112 TRATANDO VALORES AUSENTES O correto tratamento de dados ausentes é uma etapa essencial no processo de preparação de dados para o Knowledge Discovery in Databases KDD pois assegura a qualidade consistência e integridade do conjunto de dados Dados faltantes se não tratados adequadamente podem comprometer a validade das análises estatísticas distorcer resultados e consequentemente impactar negativamente a eficácia dos modelos de mineração de dados Assim é fundamental adotar abordagens criteriosas e fundamentadas para a identificação análise e tratamento dessas lacunas garantindo que as inferências obtidas sejam confiáveis e representativas A negligência nesse aspecto compromete não apenas a robustez dos modelos mas também a confiança nas decisões baseadas em dados o que é especialmente crítico em ambientes empresariais e científicos A primeira etapa crítica consiste na identificação da existência e da distribuição dos valores ausentes no banco de dados Isso envolve a quantificação do volume de dados faltantes por variável e a localização exata de onde ocorrem essas ausências Essa análise inicial fornece uma visão geral da extensão do problema e auxilia na definição de estratégias apropriadas de imputação ou eliminação de registros quando necessário Ferramentas como mapas de calor e gráficos de dispersão podem ser utilizadas para visualizar as lacunas de forma clara permitindo um diagnóstico mais assertivo e facilitando a comunicação com stakeholders 15 Posteriormente tornase imprescindível realizar uma análise do padrão de ocorrência dos dados ausentes Essa análise visa determinar se os dados estão ausentes completamente ao acaso Missing Completely at Random MCAR ausentes ao acaso Missing at Random MAR ou ausentes de forma não aleatória Not Missing at Random NMAR A identificação desse padrão é decisiva para a seleção da técnica de tratamento mais eficaz Por exemplo se os dados estão ausentes de forma sistemática isso pode refletir vieses no processo de coleta falhas de instrumentação ou ainda uma relação estrutural com outras variáveis do conjunto de dados Compreender o mecanismo de ausência permite reduzir o risco de interpretações equivocadas além de melhorar a precisão dos modelos preditivos Riedl e Konstan 2011 ao analisarem os impactos dos valores ausentes em sistemas de recomendação ressaltam que a ausência de dados pode afetar diretamente a capacidade de personalização desses sistemas Os autores destacam que dados incompletos reduzem a acurácia das recomendações além de comprometer a robustez e a equidade dos algoritmos especialmente em abordagens colaborativas que dependem fortemente da completude das interações entre usuários e itens Isso evidencia como o tratamento adequado de dados ausentes não é apenas uma questão técnica mas uma necessidade funcional para garantir a performance e confiabilidade de sistemas inteligentes Entre as estratégias mais empregadas para lidar com dados ausentes destacamse Imputação por média mediana ou moda utilizada em situações de baixa complexidade onde os valores ausentes são substituídos por estatísticas simples de tendência central É uma abordagem eficiente em bases com pequenas proporções de ausência e pouca variabilidade Imputação por regressão quando há uma relação identificável entre a variável ausente e outras variáveis do conjunto é possível estimar os valores ausentes com base em modelos de regressão linear ou múltipla mantendo maior coerência estatística entre os atributos Técnicas de aprendizado de máquina como kNearest Neighbors kNN e redes neurais também são aplicadas para imputar valores com base em padrões complexos de similaridade ou aprendizado supervisionado sendo úteis para bases com estrutura multidimensional e interdependência entre variáveis Eliminação de registros ou variáveis adotada quando a quantidade de dados ausentes é suficientemente pequena para não comprometer a integridade do conjunto ou quando a variável não possui relevância significativa para o objetivo do modelo Tratase de uma solução prática mas deve ser aplicada com cautela para evitar perda de informação relevante Modelos múltiplos de imputação como o Multiple Imputation by Chained Equations MICE considerados mais sofisticados permitem a geração de múltiplos conjuntos imputados incorporando a variabilidade e incerteza associadas ao processo Essa abordagem melhora a validade estatística das análises posteriores especialmente em estudos inferenciais 15 16 A escolha da técnica de tratamento mais adequada deve considerar não apenas a proporção de dados faltantes mas também o contexto analítico a estrutura das variáveis e o impacto potencial sobre os resultados Um tratamento inadequado pode introduzir viés mascarar relações reais ou gerar interpretações enganosas Por isso é importante realizar testes comparativos entre métodos de imputação e avaliar os efeitos em métricas de desempenho dos modelos subsequentes Ademais o tratamento de dados ausentes deve ser documentado de forma transparente para garantir a rastreabilidade e reprodutibilidade dos resultados Em ambientes corporativos onde decisões estratégicas são tomadas com base em análises preditivas negligenciar essa etapa pode acarretar prejuízos operacionais e financeiros significativos A adoção de uma política de governança de dados com protocolos claros para tratamento de lacunas tornase um diferencial competitivo e de conformidade Portanto a gestão criteriosa de dados faltantes é uma prática indispensável no ciclo de vida da ciência de dados Quando bem executada ela assegura a fidelidade das análises potencializa a acurácia dos modelos e contribui para a geração de conhecimento de alto valor agregado alinhado às metas organizacionais e à realidade dos negócios Tratase de uma etapa que embora muitas vezes invisível aos olhos do usuário final sustenta toda a credibilidade e aplicabilidade dos resultados analíticos sendo essencial para o sucesso de qualquer projeto orientado por dados 2113 NORMALIZAÇÃO DOS DADOS A normalização dos dados assegura que os dados estejam em um formato apropriado para análise e modelagem Normalizar os dados ajuda a padronizar os valores dos atributos garantindo que eles contribuam de maneira equitativa nas análises e modelos subsequentes Este processo serve para melhorar a performance de algoritmos de mineração de dados reduzindo a influência de características com valores numericamente mais amplos em algoritmos sensíveis à escala dos dados como a distância euclidiana utilizada em métodos de clusterização e classificação Além disso quando os atributos possuem escalas discrepantes como faturamento anual em milhões e número de funcionários em dezenas a normalização tornase indispensável para que ambos os atributos tenham o mesmo peso nas análises computacionais Entre as motivações para a normalização incluemse a eliminação de unidades diferentes o que é crucial quando variáveis são medidas em diferentes escalas por exemplo valores monetários e quantidade física a melhora da convergência de algoritmos de aprendizado de máquina como o gradiente descendente que tendem a convergir mais rapidamente quando os dados estão normalizados e o equilíbrio entre atributos evitando que atributos com valores maiores dominem a análise em detrimento de outros Sem essa padronização modelos estatísticos e preditivos podem apresentar resultados enviesados dificultando a extração de conhecimento útil e a tomada de decisões fundamentadas 17 Cao et al 2023 mencionam a importância da normalização no contexto de modelos de gestão de receita onde a padronização dos dados facilita a aplicação de modelos logísticos multinomiais crucial para prever comportamentos de compra A ausência dessa etapa pode impactar negativamente tanto a precisão das previsões quanto a estabilidade dos parâmetros estatísticos estimados especialmente em bases heterogêneas e com alta dispersão de valores As técnicas comuns de normalização incluem HAN et al 2011 Escala MinMax Ajusta os dados para que fiquem dentro de uma faixa específica geralmente 0 1 É indicada quando a distribuição dos dados não apresenta valores extremos pois estes podem distorcer o reescalonamento Padronização ZScore Ajusta os dados para ter média 0 e desvio padrão 1 tornando mais fácil para algoritmos lidar com uma distribuição normal Essa técnica é amplamente utilizada quando se espera uma distribuição simétrica dos dados Normalização por Máximo Absoluto Redimensiona os dados de modo que os valores absolutos máximos sejam 1 útil para dados dispersos É comum em aplicações de aprendizado profundo ou onde a esparsidade dos dados é um fator relevante Escalonamento Robusto Robust Scaler Ajusta os dados usando a mediana e o intervalo interquartil sendo especialmente eficaz para dados com valores atípicos Por sua resistência a outliers essa técnica é adequada quando se trabalha com dados reais sujeitos a variações extremas Em suma a normalização é uma etapa estratégica que impacta diretamente a eficácia dos modelos analíticos e a interpretação correta dos resultados Ao garantir uma base de dados equilibrada e comparável essa técnica fortalece a confiabilidade das inferências e melhora a performance computacional dos métodos utilizados contribuindo significativamente para o sucesso das aplicações de ciência de dados 2114 OUTLIERS BOXPLOT Os valores atípicos também conhecidos como outliers são observações que se desviam significativamente do padrão geral de um conjunto de dados Esses valores extremos podem surgir por diferentes razões como erros de mensuração falhas na entrada de dados flutuações experimentais ou em muitos casos características genuínas e relevantes que refletem fenômenos incomuns ou exceções significativas WASSERMAN 2020 Embora os outliers possam representar ruídos que distorcem a análise também podem oferecer informações importantes quando contextualizados corretamente Sua presença portanto deve ser avaliada com cautela considerando não apenas a natureza estatística da anomalia mas também sua possível relevância para o domínio de aplicação A presença de outliers tem um impacto direto sobre a qualidade das análises estatísticas e a confiabilidade dos modelos preditivos Eles podem influenciar 17 18 métricas de tendência central como média e dispersão como desvio padrão enviesar modelos de regressão e comprometer o desempenho de algoritmos de aprendizado de máquina Em particular Cao et al 2023 demonstram que a remoção ou o tratamento adequado de outliers é essencial em modelos de previsão de demanda e gestão de receita que combinam estruturas de demanda independentes com modelos logit multinomial O estudo destaca como a presença de outliers pode levar à subestimação ou superestimação de demanda impactando negativamente a eficiência de decisões estratégicas como precificação e alocação de recursos Isso mostra que ignorar a existência de valores extremos pode acarretar sérias consequências na prática especialmente em contextos onde a acurácia dos dados é vital para decisões operacionais Para a detecção de outliers uma das ferramentas gráficas mais eficientes e amplamente utilizadas é o boxplot ou gráfico de caixa e bigodes Esse gráfico oferece uma representação visual da distribuição dos dados com base em medidas resumo como os quartis mediana mínimo e máximo e permite a identificação objetiva de valores discrepantes O Intervalo Interquartil IQR calculado como a diferença entre o terceiro quartil Q3 e o primeiro quartil Q1 é usado como base para definir os limites dos chamados bigodes do boxplot Valores que se encontram fora do intervalo compreendido entre Q1 15IQR e Q3 15IQR são considerados potenciais outliers e geralmente são destacados no gráfico por pontos individuais KRISHNAMURTHY DESHPANDE 2022 ZUUR IENO ELPHICK 2019 A simplicidade e clareza visual do boxplot o tornam especialmente valioso para análises exploratórias iniciais permitindo decisões rápidas quanto à necessidade de intervenções mais aprofundadas nos dados A análise gráfica por meio de boxplots é especialmente útil durante a fase de exploração de dados no processo de Knowledge Discovery in Databases KDD uma vez que permite uma rápida identificação de anomalias antes da aplicação de técnicas mais robustas de modelagem Em contextos de negócios saúde engenharia ou ciências sociais os outliers podem representar tanto riscos analíticos quanto oportunidades de descoberta dependendo de como são interpretados Em alguns casos esses valores extremos podem sinalizar mudanças importantes no comportamento dos dados revelando tendências emergentes ou eventos de alto impacto que merecem atenção especial Adicionalmente métodos estatísticos como o teste de Grubbs zscore padronizado e técnicas de clusterização como DBSCAN também são amplamente utilizados para detectar outliers em grandes volumes de dados O DBSCAN por exemplo identifica pontos que não pertencem a regiões de alta densidade sendo eficaz na detecção de outliers em conjuntos de dados multidimensionais Com o avanço da ciência de dados têmse adotado abordagens híbridas que combinam estatística clássica com algoritmos de aprendizado de máquina para classificar ponderar e até mesmo corrigir ou imputar valores discrepantes com maior grau de confiabilidade HAN et al 2011 Essas estratégias visam não apenas identificar mas também integrar inteligentemente os outliers ao processo analítico seja por meio de exclusão justificada ou pela adaptação dos modelos para lidar com essas variações Dessa forma a gestão criteriosa de outliers tornase uma etapa 19 estratégica para garantir resultados analíticos mais robustos coerentes e aplicáveis em diferentes domínios 21141 ESTRUTURA E COMPONENTES DE UM BOXPLOT O boxplot também conhecido como gráfico de caixa e bigodes boxand whisker plot é uma ferramenta gráfica amplamente utilizada na estatística exploratória para representar de forma sintética a distribuição de um conjunto de dados Sua principal função é apresentar visualmente cinco medidasresumo fundamentais valor mínimo primeiro quartil Q1 mediana Q2 terceiro quartil Q3 e valor máximo permitindo observar a dispersão a simetria e a presença de possíveis valores atípicos outliers em um conjunto de dados PAGANO GAUVREAU 2018 Essa técnica oferece uma visão clara da variabilidade dos dados e da densidade em torno dos quartis sendo particularmente eficaz na comparação entre distribuições distintas ou na identificação de assimetrias e desvios A seguir detalhamse os principais elementos constituintes do boxplot Mediana Q2 Representada por uma linha horizontal localizada dentro da caixa a mediana corresponde ao segundo quartil ou seja o ponto que separa os 50 inferiores dos 50 superiores dos dados É uma medida robusta de tendência central menos sensível a valores extremos do que a média aritmética FIELD MILES FIELD 2017 Caixa Q1 a Q3 A estrutura retangular do gráfico compreende a faixa entre o primeiro quartil Q1 25 dos dados e o terceiro quartil Q3 75 dos dados Esse intervalo denominado amplitude interquartil IQR Interquartile Range representa os 50 centrais dos dados excluindo os extremos inferiores e superiores A IQR é uma medida fundamental de dispersão eficaz para caracterizar a variabilidade dos dados sem a influência de outliers WASSERMAN 2020 WICKHAM GROLEMUND 2017 Bigodes Whiskers Os bigodes se estendem a partir das extremidades da caixa até os limites inferiores e superiores definidos como 15 vezes a IQR abaixo de Q1 e acima de Q3 Valores dentro desses limites são considerados normais na distribuição dos dados KRISHNAMURTHY DESHPANDE 2022 A extensão dos bigodes ajuda a visualizar a cauda da distribuição e identificar a assimetria Valores Atípicos Outliers Dados que se encontram fora dos limites dos bigodes são identificados como outliers e geralmente são representados por círculos asteriscos ou outros símbolos Esses valores podem indicar erros de medição registros incorretos ou fenômenos reais fora da distribuição esperada e merecem investigação especial pois podem influenciar de forma significativa análises estatísticas e decisões baseadas em dados ZUUR IENO ELPHICK 2019 Valores Mínimos e Máximos dentro dos limites Os extremos inferiores e superiores que ainda se encontram dentro dos limites definidos pelos bigodes 19 20 representam os menores e maiores valores considerados regulares na distribuição Eles delimitam a cauda do conjunto de dados sem incluir os pontos considerados atípicos KABACOFF 2021 Além de sua simplicidade visual o boxplot é especialmente útil em contextos comparativos como quando se deseja analisar diferentes grupos ou categorias de uma variável Ao permitir a visualização simultânea de mediana dispersão e simetria o gráfico de caixa e bigodes tornase uma ferramenta indispensável em análises exploratórias diagnósticos estatísticos e em aplicações que envolvem a limpeza e validação de dados como no processo de Knowledge Discovery in Databases KDD A Figura 2 demonstra como as informações são visualmente dispostas Figura 2 Boxplot Fonte Adaptado pelo autor 2025 Os boxplots são ferramentas eficazes para a identificação de outliers análise de distribuição e comparação entre grupos de dados Neles os outliers são facilmente identificados como pontos fora dos bigodes facilitando a visualização de anomalias Além disso o boxplot permite uma rápida visualização da distribuição dos dados evidenciando a presença de simetria ou assimetria Ao comparar boxplots de diferentes grupos é possível identificar diferenças significativas na distribuição e na presença de outliers entre os grupos Ao usar boxplots é possível visualizar claramente como os outliers podem influenciar a distribuição dos dados Por exemplo a presença de outliers pode distorcer a média puxandoa para cima ou para baixo Outliers também aumentam a variabilidade aparente dos dados refletida pelo comprimento dos bigodes do 21 boxplot Identificar e tratar outliers pode levar a decisões mais informadas e precisas melhorando a qualidade das análises e previsões 2115 USO DO PYTHON No cenário acadêmico o Python se tornou uma das ferramentas mais utilizadas para preparação dos dados sendo amplamente adotado em projetos de pesquisa ensino e desenvolvimento tecnológico Essa popularidade devese à sua sintaxe simples comunidade ativa e vasto ecossistema de bibliotecas voltadas para ciência de dados De acordo com o Times Higher Education World University Rankings 2023 o Python foi identificado como a linguagem padrão em 92 das 100 melhores universidades do mundo para cursos de ciência de dados engenharia da computação estatística aplicada e áreas afins evidenciando sua consolidação como linguagem base no ensino superior e na produção científica global Essa predominância se verifica especialmente no contexto da descoberta de conhecimento em bases de dados KDD Knowledge Discovery in Databases onde o Python tem desempenhado um papel central na condução das etapas de extração transformação limpeza análise e modelagem dos dados Sua flexibilidade e integração com ambientes como Jupyter Notebook tornam o processo mais dinâmico reprodutível e visual o que favorece tanto o aprendizado quanto a validação científica Além disso sua compatibilidade com outras linguagens e plataformas permite que pesquisadores e profissionais realizem desde tarefas simples de tratamento de dados até experimentos complexos de inteligência artificial e mineração preditiva No campo corporativo a linguagem também tem ganhado espaço pela sua capacidade de automatizar processos construir pipelines analíticos escaláveis e permitir a análise de grandes volumes de dados com eficiência Assim o Python tornouse uma ponte sólida entre o ambiente acadêmico e o mercado de trabalho sendo considerado um diferencial competitivo para cientistas de dados engenheiros de machine learning e analistas de negócios Dessa forma é possível afirmar que a utilização do Python auxilia de forma relevante na garantia da adequação dos dados para análises mais detalhadas e na implementação de modelos avançados de mineração oferecendo suporte robusto para todas as fases do ciclo de vida da ciência de dados Sua adoção massiva justificase não apenas pela facilidade de uso mas também pela confiabilidade e amplitude de recursos disponíveis Abaixo são mencionadas algumas das principais bibliotecas do Python e suas funcionalidades essenciais destacando a importância dessas ferramentas na manipulação eficaz dos dados 21 22 21151 PANDAS A biblioteca Pandas desenvolvida por Wes McKinney 2010 tornouse uma das ferramentas mais utilizadas em ciência de dados e análise estatística com Python Seu desenvolvimento visou suprir a necessidade de uma estrutura de dados robusta e eficiente para análise de dados em grande escala especialmente em aplicações que envolvem séries temporais e dados numéricos Desde então Pandas tem se consolidado como um dos principais pilares do ecossistema Python voltado à análise de dados sendo adotada tanto em ambientes acadêmicos quanto empresariais dada sua versatilidade e facilidade de uso Dentre suas funcionalidades mais relevantes destacamse as estruturas de dados fundamentais o DataFrame e a Series O DataFrame é uma estrutura bidimensional semelhante a uma planilha ou tabela relacional composta por colunas com rótulos e tipos de dados heterogêneos enquanto a Series é uma estrutura unidimensional comparável a um vetor indexado Essas estruturas permitem ao analista manipular dados de maneira intuitiva aplicando filtros transformações e operações estatísticas com poucas linhas de código A flexibilidade dessas abstrações facilita desde tarefas simples como o carregamento e visualização de dados até etapas mais complexas de engenharia de atributos Além disso o Pandas oferece suporte abrangente para leitura e escrita de arquivos nos mais variados formatos como CSV Excel JSON Parquet e bancos de dados relacionais via SQL facilitando a integração com diferentes fontes de dados MCKINNEY 2010 Essa capacidade é essencial em contextos onde a heterogeneidade e o volume de dados requerem ferramentas capazes de garantir interoperabilidade entre sistemas A biblioteca também provê recursos para converter dados em tempo real tratar datas e realizar fusões entre conjuntos distintos de forma eficiente Suas capacidades de manipulação e transformação de dados incluem seleção e indexação por rótulos ou posições filtragem condicional ordenação renomeação de colunas substituição de valores criação de colunas derivadas e reestruturação de dados como pivotamento e unpivotamento Esses recursos tornam o Pandas uma ferramenta completa para o processo de limpeza padronização e preparação dos dados antes da análise exploratória e modelagem estatística Outro recurso amplamente explorado é o agrupamento e agregação de dados por meio da função groupby que permite dividir conjuntos de dados com base em critérios específicos aplicar funções de agregação e combinar os resultados Isso é fundamental para análises comparativas entre grupos como médias segmentadas totais por categorias e estatísticas descritivas em diferentes níveis de granularidade Pandas também possui métodos eficientes para o tratamento de valores ausentes NaN como preenchimento fillna interpolação exclusão de linhas ou colunas com dados faltantes dropna além da detecção de outliers e 23 substituição condicional Essas funcionalidades são indispensáveis em contextos onde a integridade dos dados é comprometida por lacunas de informação registros corrompidos ou inconsistências Adicionalmente a biblioteca permite operações avançadas de mesclagem e junção de dados com funções como merge join e concat possibilitando o cruzamento de informações de diferentes tabelas com base em chaves comuns Isso é particularmente relevante em contextos de integração de dados heterogêneos como aqueles provenientes de múltiplas fontes em projetos de Business Intelligence Data Warehousing e sistemas de recomendação A combinação de desempenho usabilidade e integração torna o Pandas uma ferramenta indispensável em diversas etapas do processo de Knowledge Discovery in Databases KDD especialmente nas fases de préprocessamento exploração e preparação de dados antes da aplicação de modelos estatísticos ou de aprendizado de máquina Sua ampla adoção na comunidade científica e no setor corporativo é evidenciada pela vasta documentação número de contribuições no GitHub e integração com bibliotecas como NumPy Matplotlib Scikitlearn e Seaborn consolidando seu papel como um dos principais alicerces para análises orientadas a dados 21152 NUMPY A biblioteca NumPy Numerical Python é uma das ferramentas fundamentais no ecossistema da ciência de dados com Python oferecendo suporte a estruturas de dados eficientes e operações matemáticas de alto desempenho Desenvolvida inicialmente por Travis Oliphant e atualmente mantida como projeto de código aberto ela se consolidou como a base para a maioria das bibliotecas científicas e analíticas em Python De acordo com Harris et al 2020 o NumPy é amplamente utilizado por seu desempenho superior e por permitir a manipulação eficiente de grandes volumes de dados numéricos Sua adoção é recorrente em ambientes acadêmicos laboratórios de pesquisa e setores da indústria que demandam análise matemática e computação científica de forma intensiva A principal estrutura de dados do NumPy é o ndarray um array multidimensional homogêneo que permite armazenar e operar com grandes conjuntos de dados numéricos de forma otimizada Essa estrutura é fundamental para o processamento vetorial e matricial substituindo as listas e estruturas nativas do Python quando se trata de aplicações que exigem desempenho e precisão computacional O ndarray proporciona não apenas economia de memória mas também velocidade de processamento uma vez que é implementado em C e realiza operações de baixo nível com grande eficiência Dentre suas principais funcionalidades destacase a criação indexação e manipulação de arrays multidimensionais viabilizando o desenvolvimento de algoritmos científicos financeiros e estatísticos com grande eficiência O NumPy oferece também uma vasta gama de funções matemáticas estatísticas e lógicas que permitem realizar desde operações básicas como soma subtração multiplicação divisão exponenciação até cálculos mais avançados como transformadas de Fourier álgebra linear integração numérica interpolação e geração de números 23 24 aleatórios Isso torna a biblioteca altamente adaptável a uma ampla gama de domínios de aplicação Um dos maiores diferenciais da biblioteca está na sua capacidade de realizar operações vetorizadas ou seja aplicar funções diretamente a arrays inteiros sem a necessidade de loops explícitos Essa característica não apenas simplifica o código e tornao mais legível como também melhora significativamente o desempenho principalmente em relação às listas tradicionais do Python Isso ocorre porque essas operações são otimizadas internamente em linguagem C permitindo a execução em baixa latência e com consumo eficiente de recursos computacionais Além disso o NumPy conta com recursos como broadcasting que permite realizar operações entre arrays de diferentes dimensões de maneira automática e eficiente Essa funcionalidade é especialmente útil em tarefas de modelagem matemática e simulações onde é comum realizar cálculos envolvendo vetores e matrizes de tamanhos variados O NumPy é frequentemente utilizado como fundamento para outras bibliotecas da ciência de dados como Pandas Matplotlib Scikitlearn TensorFlow Keras e PyTorch pois fornece o suporte matemático necessário para manipulação de dados em diferentes contextos Sua interoperabilidade com bibliotecas de álgebra linear sistemas de equações diferenciais e manipulação de imagens tornao essencial em áreas como machine learning análise estatística engenharia economia computacional simulação física e inteligência artificial Em suma o NumPy representa um pilar central na infraestrutura de computação científica com Python sendo indispensável para qualquer pipeline de análise de dados robusto Sua robustez flexibilidade e desempenho explicam sua posição de destaque entre as ferramentas utilizadas para o processo de Knowledge Discovery in Databases KDD especialmente nas etapas de exploração e preparação quantitativa dos dados 21153SCIKITLEARN A biblioteca Scikitlearn é uma das principais ferramentas disponíveis no ecossistema Python para a implementação de técnicas de aprendizado de máquina machine learning Desenvolvida originalmente por Pedregosa et al 2011 ela oferece uma interface unificada e de fácil utilização para uma ampla gama de algoritmos de aprendizado supervisionado e não supervisionado além de ferramentas complementares para avaliação validação e otimização de modelos preditivos Sua popularidade se deve não apenas à robustez de seus algoritmos mas também à facilidade de integração com bibliotecas como NumPy SciPy Pandas e Matplotlib permitindo fluxos de trabalho consistentes reprodutíveis e escaláveis em ciência de dados Um dos principais diferenciais do Scikitlearn é sua modularidade e integração harmoniosa com bibliotecas fundamentais para o processamento numérico e manipulação de dados Essa arquitetura modular permite a construção de pipelines robustos que englobam desde o préprocessamento até a avaliação e refinamento 25 de modelos preditivos Isso torna possível testar e comparar diferentes abordagens de forma sistemática e organizada característica essencial em ambientes acadêmicos e corporativos que demandam experimentação rigorosa As principais funcionalidades da biblioteca incluem Implementação de algoritmos de aprendizado supervisionado como regressão linear regressão logística máquinas de vetor de suporte SVM árvores de decisão florestas aleatórias random forest e redes neurais artificiais simples Esses algoritmos são aplicáveis a tarefas de classificação por exemplo prever a categoria de um cliente e regressão como prever o valor de uma venda ou temperatura A versatilidade dos modelos permite sua utilização em diversos domínios como finanças marketing saúde e educação Modelos de aprendizado não supervisionado como kmeans DBSCAN aglomeração hierárquica e análise de componentes principais PCA amplamente utilizados em tarefas de clusterização segmentação de grupos sem rótulos e redução de dimensionalidade compressão de variáveis para visualização ou eliminação de ruído Essas técnicas são úteis quando não se possui variáveisalvo e desejase explorar padrões ocultos nos dados Ferramentas de préprocessamento de dados incluindo normalização padronização codificação de variáveis categóricas OneHot Encoding imputação de valores ausentes binarização e seleção de atributos feature selection Essas etapas são essenciais para garantir que os dados estejam em formato adequado para a modelagem minimizando problemas causados por escalas diferentes dados faltantes ou redundância de variáveis Técnicas de validação cruzada crossvalidation e métodos de avaliação de desempenho como matrizes de confusão curvas ROC métricas de precisão recall F1score e acurácia Essas ferramentas permitem medir o desempenho dos modelos de forma confiável evitando problemas como overfitting quando o modelo aprende ruídos em vez de padrões e underfitting quando o modelo é incapaz de capturar as tendências dos dados Construção de pipelines automatizados recurso essencial para encadear etapas do fluxo de trabalho de aprendizado de máquina Com isso é possível padronizar a aplicação de transformações seleção de atributos e ajuste de modelos em um único objeto facilitando testes reuso de código e reprodutibilidade dos experimentos O Scikitlearn também oferece suporte a técnicas como ajuste de hiperparâmetros por grid search e random search além de implementações para métricas customizadas modelos probabilísticos e técnicas de balanceamento de classes como SMOTE Synthetic Minority Oversampling Technique Sua versatilidade permite atender desde projetos introdutórios até aplicações mais avançadas em modelagem preditiva 25 26 Com ampla documentação uma comunidade ativa de desenvolvedores e usuários tutoriais atualizados e compatibilidade com ferramentas de visualização como Matplotlib e Seaborn o Scikitlearn é hoje considerado um dos frameworks mais acessíveis e poderosos para o desenvolvimento de soluções em ciência de dados Sua arquitetura modular associada à simplicidade de uso o consolidou como uma das bibliotecas mais utilizadas em pesquisas acadêmicas projetos educacionais ambientes corporativos e prototipagem rápida de modelos de aprendizado de máquina 21154 MATPLOTLIB A biblioteca Matplotlib é uma ferramenta de visualização de dados em Python altamente versátil e amplamente utilizada na comunidade científica e no setor de análise de dados Desenvolvida inicialmente por John D Hunter 2007 ela se consolidou como um dos principais recursos gráficos disponíveis na linguagem Python servindo como base para outras bibliotecas de visualização como Seaborn Plotly e Pandas Visualization Seu principal objetivo é permitir que pesquisadores analistas e desenvolvedores representem visualmente os dados de forma clara precisa e personalizável facilitando tanto a exploração quanto a apresentação de informações quantitativas e qualitativas Matplotlib destacase por sua capacidade de gerar desde gráficos simples e rápidos até visualizações altamente customizadas o que a torna apropriada para diversos níveis de complexidade em projetos acadêmicos científicos e corporativos Além disso é compatível com ambientes interativos como Jupyter Notebook Google Colab e IDEs convencionais permitindo uma experiência flexível e interativa de análise Suas principais funcionalidades incluem Criação de uma ampla variedade de gráficos é possível gerar gráficos de linha barras setores pizza dispersão scatter histogramas gráficos de área gráficos 3D mapas de calor heatmaps entre outros Essa variedade torna a biblioteca adequada tanto para análises exploratórias quanto para apresentações formais Customização extensiva dos elementos visuais os gráficos podem ser modificados em praticamente todos os aspectos cores estilos de linha marcadores tamanhos de fonte títulos rótulos nos eixos escalas grades legendas e muito mais Isso permite adequar a visualização às necessidades específicas do estudo ou da comunicação de resultados Integração com outras bibliotecas do ecossistema Python como NumPy Pandas e Scikitlearn viabilizando a visualização direta de dados armazenados em arrays e DataFrames Essa integração reduz a necessidade de transformações adicionais e acelera o processo de análise Produção de gráficos de alta qualidade compatíveis com publicações científicas e apresentações profissionais Os gráficos podem ser exportados 27 para diversos formatos como PNG SVG PDF e EPS com alta resolução e fidelidade visual Criação de subplots e layouts complexos por meio da função subplot e do módulo gridspec é possível organizar múltiplos gráficos em uma única figura facilitando a comparação de resultados ou a apresentação de diferentes aspectos de um mesmo conjunto de dados Além disso Matplotlib oferece suporte a interatividade básica como zoom pan atualização dinâmica de gráficos em tempo real e integração com interfaces gráficas GUI o que contribui para aplicações que demandam visualizações reativas ou dinâmicas Devido à sua ampla documentação comunidade ativa e versatilidade de aplicação Matplotlib tornouse uma escolha praticamente padrão para cientistas de dados e pesquisadores que trabalham com visualização gráfica no contexto de descoberta de conhecimento em bases de dados KDD Sua aplicabilidade vai desde o ensino de estatística básica até o desenvolvimento de painéis interativos e protótipos de dashboards analíticos 21155 SEABORN Seaborn é uma biblioteca de visualização de dados em Python desenvolvida sobre a base do Matplotlib com o objetivo de simplificar e aprimorar a criação de gráficos estatísticos Lançada por Michael Waskom e colaboradores WASKOM et al 2020 Seaborn oferece uma sintaxe mais intuitiva e recursos avançados que facilitam a construção de visualizações informativas elegantes e estatisticamente robustas Sua proposta é tornar a análise exploratória de dados mais acessível e eficiente sobretudo para usuários que trabalham com grandes volumes de dados tabulares Ao se integrar de forma nativa com as estruturas de dados do Pandas Seaborn permite a criação de gráficos diretamente a partir de DataFrames reduzindo significativamente a necessidade de manipulações manuais de dados antes da visualização Essa integração também favorece a aplicação de filtros agrupamentos e mapeamentos estéticos com grande facilidade promovendo agilidade na investigação de padrões tendências e relações entre variáveis Suas principais funcionalidades incluem Variedade de gráficos estatísticos Seaborn fornece diversas opções para representar distribuições de dados como histplot kdeplot e boxplot relações bivariadas scatterplot lineplot e comparações categóricas barplot pointplot countplot entre outros Esses gráficos são projetados com foco na clareza estatística auxiliando na detecção de padrões relevantes Criação direta a partir de DataFrames A biblioteca foi pensada para trabalhar de forma fluida com os objetos do Pandas O usuário pode simplesmente passar o nome das colunas como argumentos para os eixos 27 28 dos gráficos o que facilita o desenvolvimento de visualizações em fluxos de trabalho analíticos baseados em tabelas Temas e estilos predefinidos Seaborn conta com um conjunto de estilos visuais integrados como darkgrid whitegrid dark white e ticks que proporcionam um aspecto visual profissional às visualizações com mínima necessidade de customização adicional Simplicidade na criação de visualizações complexas Em comparação ao Matplotlib Seaborn abstrai muitos comandos de baixo nível permitindo que gráficos complexos sejam gerados com poucas linhas de código Isso é especialmente útil para usuários iniciantes ou para análises exploratórias rápidas Suporte robusto para dados categóricos A biblioteca oferece gráficos específicos para variáveis categóricas como gráficos de barras pontos e contagem permitindo a avaliação visual do comportamento de diferentes grupos ou categorias em relação a variáveis numéricas Mapas de calor heatmaps Seaborn inclui ferramentas para criação de mapas de calor a partir de matrizes de correlação o que é extremamente útil na identificação visual de associações entre múltiplas variáveis Esses mapas utilizam cores para representar a intensidade das correlações facilitando a análise multidimensional Além dessas funcionalidades Seaborn também permite a incorporação de elementos estatísticos aos gráficos como intervalos de confiança tendências de regressão linear e visualizações condicionais por subgrupos com hue col row tornandose uma ferramenta poderosa para análises exploratórias guiadas por estatística visual Por sua combinação de facilidade de uso integração com outras bibliotecas como Pandas NumPy e Matplotlib e apelo visual Seaborn é amplamente adotada em projetos acadêmicos pesquisas científicas estudos de mercado e aplicações profissionais em ciência de dados Seu papel na fase de exploração de dados do processo de Knowledge Discovery in Databases KDD é especialmente relevante pois auxilia na geração de insights visuais que orientam decisões de modelagem e préprocessamento 21156 MISSINGNO Outra ferramenta relevante no ecossistema Python é a Missingno uma biblioteca de visualização de dados especialmente projetada para facilitar a identificação a análise e o diagnóstico de valores ausentes em conjuntos de dados Essa biblioteca é particularmente útil durante a fase de análise exploratória no processo de Knowledge Discovery in Databases KDD pois fornece representações gráficas que tornam visível não apenas a quantidade de dados faltantes mas também seus padrões de ocorrência ao longo das variáveis WASKOM et al 2020 29 Ao contrário de abordagens puramente numéricas ou tabulares a visualização gráfica oferecida pelo Missingno permite detectar relações estruturais entre os valores ausentes como colunas altamente correlacionadas em termos de ausência grupos de registros com padrões semelhantes de lacunas ou a predominância de ausências em blocos temporais específicos Essa compreensão visual é fundamental para orientar decisões sobre imputação remoção de registros ou tratamento condicional estratégias essenciais para preservar a integridade dos modelos preditivos subsequentes As principais funcionalidades da biblioteca incluem Integração com a biblioteca Pandas O Missingno opera de forma nativa com DataFrames o que facilita sua aplicação direta em fluxos de trabalho baseados em Pandas Com comandos simples é possível gerar gráficos como matrizes mapas de calor diagramas de barras e dendrogramas todos voltados à inspeção de dados ausentes Visualizações específicas para dados faltantes A biblioteca disponibiliza gráficos como msnomatrix que exibe a presença ou ausência de dados em linhas e colunas por meio de barras verticais msnoheatmap que mostra a correlação de ausência entre colunas destacando variáveis que frequentemente têm valores ausentes simultaneamente msnobar que apresenta a contagem de valores não nulos por coluna msnodendrogram que agrupa colunas com padrões semelhantes de ausência usando hierarquia visual Interface simples e altamente interpretável A sintaxe é direta exigindo poucas linhas de código para gerar gráficos com grande poder informativo o que torna a biblioteca especialmente atrativa para iniciantes ou para análises rápidas em ambientes exploratórios O domínio dessas ferramentas como o Missingno e outras bibliotecas de suporte à preparação de dados contribui significativamente para o aprimoramento da qualidade dos dados analisados reduzindo vieses e aumentando a confiabilidade dos modelos analíticos construídos Além disso fortalece as competências analíticas dos profissionais capacitandoos a diagnosticar documentar e tratar deficiências nos dados com maior eficácia Nesse contexto o conhecimento em Python e em suas bibliotecas associadas configurase como um recurso valioso e estratégico tanto no meio acadêmico quanto no setor produtivo Como destaca VanderPlas 2016 o domínio dessas ferramentas não apenas acelera a produtividade na análise de dados mas também amplia a capacidade de tomada de decisão baseada em evidências confiáveis e reprodutíveis 29 30 212 TRANSFORMAÇÃO DE DADOS A transformação de dados consiste em um conjunto de processos destinados a modificar os dados brutos com o objetivo de adaptálos às exigências das etapas subsequentes de análise e modelagem Entre os procedimentos mais comuns destacamse a normalização a padronização a discretização a codificação de variáveis categóricas e a transformação logarítmica entre outros Essas técnicas são fundamentais para garantir que os dados estejam em um formato adequado para os algoritmos de mineração de dados e aprendizado de máquina melhorando não apenas a performance computacional mas também a robustez e acurácia dos modelos gerados Dados em escalas distintas por exemplo podem comprometer algoritmos sensíveis à magnitude dos valores como os baseados em distância motivo pelo qual a transformação correta dos atributos é uma etapa crítica no ciclo de vida da análise de dados Já a análise multivariada é um ramo da estatística que lida com a observação e análise simultânea de múltiplas variáveis dependentes permitindo uma compreensão mais abrangente de fenômenos complexos e interdependentes Ela é amplamente utilizada em diversas áreas do conhecimento incluindo os estudos ambientais geográficos e socioeconômicos De acordo com Nijkamp 1999 a análise multivariada não visa necessariamente encontrar uma solução ótima mas sim oferecer uma representação mais realista e interpretável de fenômenos compostos por múltiplos fatores quantitativos e qualitativos frequentemente em conflito ou correlação mútua Ferramentas como análise de componentes principais PCA análise fatorial análise de agrupamentos cluster analysis e análise discriminante são comumente utilizadas nesse contexto para identificar padrões reduzir a dimensionalidade dos dados e explorar relações latentes entre variáveis No método proposto para segmentação de clientes B2B a análise multivariada desempenha um papel estratégico ao viabilizar a exploração estruturada e interpretável de grandes volumes de informações frequentemente compostos por variáveis heterogêneas como faturamento porte da empresa tempo de relacionamento volume de compras entre outros Essa abordagem estatística permite identificar agrupamentos naturais de clientes facilitando a visualização de perfis semelhantes e apoiando decisões baseadas em dados reais Assim a análise multivariada quando aliada a uma transformação adequada dos dados fortalece a fundamentação estatística e comercial das estratégias de segmentação contribuindo de maneira decisiva para a definição de ações personalizadas priorização de recursos e otimização do relacionamento com diferentes perfis de clientes 2121 MÉTODO DE CLUSTERIZAÇÃO A análise de agrupamentos ou cluster analysis referese a um conjunto de técnicas estatísticas que têm como objetivo principal agrupar objetos ou observações com base em suas semelhanças e diferenças buscando identificar estruturas naturais nos dados A ideia central é formar grupos chamados de clusters de forma que os elementos pertencentes a um mesmo grupo apresentem alta similaridade entre si enquanto os grupos diferentes sejam idealmente o mais 31 distintos possível uns dos outros Essa similaridade geralmente é medida por meio de distâncias matemáticas como a distância euclidiana ou a de Manhattan aplicadas sobre as variáveis disponíveis MALHOTRA 2006 Diferentemente de métodos supervisionados a análise de agrupamentos não pressupõe uma variávelalvo ou categorias prédefinidas Ela é uma técnica descritiva utilizada quando não se conhece a priori a estrutura do conjunto de dados permitindo descobrir padrões latentes e segmentos relevantes sem interferência de suposições Por isso não se faz distinção entre variáveis independentes e dependentes todas são consideradas na definição das semelhanças Como aponta Hair et al 2009 essa característica torna o método especialmente valioso em pesquisas exploratórias onde o objetivo é revelar agrupamentos naturais de indivíduos objetos ou empresas a partir de um grande volume de dados multivariados Esse tipo de análise se mostra extremamente útil em contextos onde o número de observações é elevado tornando impraticável a análise individual de cada elemento A partir da formação dos clusters é possível reduzir a complexidade dos dados facilitando tanto a visualização quanto a interpretação de tendências e comportamentos semelhantes entre os elementos agrupados Dessa forma a análise de agrupamentos é frequentemente empregada em áreas como marketing biologia psicologia geografia e ciência de dados por exemplo na segmentação de clientes classificação de espécies agrupamento de regiões geográficas ou na redução de dimensionalidade para aprendizado de máquina Na análise de agrupamentos não há conhecimento prévio sobre o número tamanho ou características dos grupos a serem formados Os algoritmos assumem que os dados falarão por si e os clusters são obtidos com base em medidas matemáticas de proximidade sem qualquer rótulo externo Por isso tratase de uma técnica não supervisionada voltada à descoberta de padrões ocultos nos dados HAIR et al 2009 O processo de clusterização pode ser dividido em duas etapas fundamentais 1 a estimação das medidas de similaridade ou dissimilaridade entre os objetos e 2 a aplicação de um algoritmo de agrupamento que utilizará essas medidas para formar os grupos Existem diversas técnicas para conduzir essa análise e a escolha da abordagem mais adequada depende do tipo de dados do objetivo do estudo e da quantidade de informações disponíveis Segundo Hair et al 2009 as técnicas de agrupamento podem ser classificadas em dois grandes grupos a Abordagem Hierárquica caracterizase pela construção de uma estrutura em forma de árvore dendrograma a partir de fusão sucessiva aglomeração ou divisão recursiva divisiva dos elementos Inicialmente cada observação é tratada como um grupo separado e os grupos são combinados com base em critérios de proximidade formando novos grupos em níveis hierárquicos até que todos estejam reunidos O dendrograma resultante mostra visualmente as distâncias entre os agrupamentos formados permitindo ao analista decidir a posteriori o número mais adequado de clusters com base em saltos significativos nas distâncias 31 32 b Abordagem Não Hierárquica ao contrário da hierárquica essa abordagem exige que o número de clusters seja definido previamente pelo pesquisador O algoritmo mais conhecido desta categoria é o kmeans que busca particionar os dados em k grupos distintos minimizando a variância intracluster e maximizando a variância entre os clusters A técnica é eficiente e amplamente utilizada sobretudo em contextos com grandes volumes de dados onde o custo computacional da abordagem hierárquica se torna inviável Ambas as abordagens possuem vantagens e limitações e muitas vezes são utilizadas de forma complementar Por exemplo a análise hierárquica pode ser empregada inicialmente para estimar um número apropriado de clusters que então é refinado por meio do kmeans ou de outro método não hierárquico A escolha criteriosa da abordagem e da métrica de similaridade é fundamental para garantir agrupamentos coerentes e interpretáveis especialmente em aplicações como a segmentação de clientes B2B onde decisões estratégicas serão tomadas com base nos perfis identificados 21211 ELBOW O método do cotovelo Elbow Method é uma técnica visual amplamente empregada na determinação do número ideal de clusters em análises de agrupamento especialmente no algoritmo kmeans Seu objetivo é identificar o ponto ótimo em que a adição de novos grupos deixa de trazer ganhos significativos em termos de homogeneidade interna dos clusters evitando tanto o subajuste quanto o super ajuste dos dados À medida que o número de clusters k aumenta a Soma dos Erros Quadrados Sum of Squared Errors SSE também conhecida como inércia total tende a diminuir de forma monotônica uma vez que os dados são divididos em grupos menores e mais específicos Cada ponto é então alocado ao centróide mais próximo e quanto mais grupos existem menor será a distância entre os pontos e seus respectivos centróides resultando em uma queda acentuada do SSE nas primeiras divisões No entanto essa redução se torna menos acentuada a partir de certo valor de k indicando que a inclusão de novos grupos deixa de justificar o custo computacional ou a complexidade adicional O gráfico gerado apresenta então uma forma característica de cotovelo sendo esse ponto de inflexão o mais indicado para definir o número ideal de clusters Figura 3 Exemplificação Gráfica Elbow 33 Fonte Adaptado pelo autor 2025 Na Figura 3 observase a relação entre o número de clusters e o valor da SSE A curva apresenta uma queda acentuada no erro ao se passar de 2 para 3 grupos e continua decrescendo conforme mais clusters são adicionados No entanto a redução marginal da SSE tornase claramente menos expressiva a partir do momento em que o número de clusters alcança 4 Esse comportamento sugere a presença de um cotovelo visual ponto em que o ganho adicional na coesão dos grupos deixa de ser significativo frente ao aumento da complexidade do modelo Essa análise visual é especialmente importante para evitar a criação de clusters excessivos que podem comprometer a interpretabilidade dos resultados e levar à fragmentação de grupos relevantes Por isso com base na análise gráfica apresentada o número ideal de clusters para o conjunto de dados em questão é 4 pois a partir deste ponto os ganhos em termos de redução da SSE são marginalmente pequenos caracterizando um equilíbrio entre simplicidade e eficácia do modelo A escolha de k 4 garante uma segmentação adequada representativa das estruturas latentes do conjunto de dados e alinhada aos objetivos analíticos do estudo 21212 SILHOUETTE Figura 04 Gráfico da Pontuação de Silhueta em função do número de clusters 33 34 Fonte Adaptado pelo autor 2025 Na Figura 04 observase o gráfico da Pontuação de Silhueta em função do número de clusters utilizado como uma das métricas mais relevantes para avaliar a qualidade de agrupamentos em técnicas de clusterização A análise indica que a pontuação atinge seu valor mais elevado acima de 085 quando se opta por 2 agrupamentos Esse resultado sugere que com dois grupos há uma forte coesão interna os elementos dentro do mesmo grupo são bastante semelhantes e boa separação entre os grupos o que demonstra um cenário bastante favorável para a interpretação e uso prático da segmentação A partir do momento em que se aumenta o número de clusters para três ou mais observase uma queda significativa na pontuação atingindo valores próximos de 076 e essa pontuação permanece em um patamar relativamente estável entre 076 e 079 até o oitavo agrupamento Posteriormente ao ultrapassar esse ponto a pontuação volta a cair de forma mais acentuada indicando que agrupamentos com 9 ou 10 clusters já comprometem substancialmente a qualidade da segmentação possivelmente criando divisões artificiais que não refletem padrões reais nos dados Esse comportamento do gráfico evidencia que apesar de ser possível agrupar os dados em diversas quantidades de clusters somente o agrupamento com 2 clusters apresenta uma qualidade estatística realmente alta sendo o único com silhueta acima de 085 Já os demais cenários apresentam pontuações medianas indicando sobreposição de grupos ou pouca distinção entre eles Quando comparamos essa análise com os resultados do Método do Cotovelo Figura 03 percebemos uma divergência metodológica relevante Enquanto o Método do Cotovelo pode sugerir a adoção de 4 ou até 5 clusters com base na inércia redução da soma dos erros quadrados a Pontuação de Silhueta prioriza a qualidade da separação entre grupos apontando para a configuração com apenas 2 clusters como a mais apropriada do ponto de vista interpretativo 35 Essa divergência não deve ser vista como um problema mas como uma riqueza analítica É comum que diferentes métricas ofereçam sugestões distintas especialmente quando os dados apresentam estruturas complexas ou sobreposição entre grupos Por isso é essencial que a definição final do número de clusters leve em consideração uma abordagem multidimensional envolvendo tanto os indicadores estatísticos quanto o conhecimento de domínio os objetivos da segmentação e a viabilidade prática de aplicação dos grupos formados Em síntese o gráfico de Silhueta é uma ferramenta poderosa para validar visual e estatisticamente os resultados da clusterização e neste caso específico indica fortemente que o agrupamento em 2 clusters é o mais eficaz coeso e interpretável para a base de dados analisada 2122 KMEANS O método kmeans é uma técnica de análise não hierárquica amplamente utilizada em projetos de mineração de dados e ciência de dados por sua simplicidade eficiência computacional e facilidade de interpretação dos resultados Ao receber um número prédefinido de agrupamentos k o algoritmo tem como objetivo particionar os dados em k clusters distintos de forma que cada observação pertença ao grupo cujo centroide ponto central do cluster esteja mais próximo Esse processo é repetido sucessivamente até que o modelo atinja um estado estável ou seja até que as observações deixem de mudar de grupo entre as iterações HAIR 2009 HAN et al 2011 Inicialmente os centroides são definidos aleatoriamente no espaço de atributos Em seguida cada observação é associada ao cluster mais próximo com base em uma métrica de distância normalmente a distância Euclidiana Após essa etapa de alocação os centroides de cada grupo são recalculados como a média aritmética das observações pertencentes ao respectivo cluster Essa realocação dos centroides resulta então em uma nova redistribuição dos dados O processo se repete de forma iterativa a cada ciclo os dados são reagrupados em torno dos centroides atualizados e os centroides são novamente recalculados com base nas novas composições dos clusters Esse procedimento iterativo continua até que o algoritmo atinja um ponto de convergência ou seja quando a composição dos clusters deixa de variar entre as iterações consecutivas Em algumas implementações um critério de parada adicional pode ser estabelecido com base em um número máximo de iterações ou em um limiar mínimo de variação entre os centroides O objetivo central do kmeans é minimizar a variância intracluster o que significa reduzir a soma das distâncias quadradas entre os pontos e seus respectivos centroides Com isso o método busca maximizar a coesão interna de cada grupo e a separação entre os diferentes clusters resultando em agrupamentos mais homogêneos internamente e bem distintos entre si Essa característica o torna particularmente eficaz em contextos de segmentação de mercado análise comportamental e agrupamento de padrões de consumo entre outros 35 36 Essa abordagem foi empregada neste trabalho como técnica principal para realizar a segmentação dos dados proporcionando uma maneira objetiva e estatisticamente fundamentada de agrupar os clientes B2B com base em suas características multivariadas A Figura 5 apresenta a visualização dos agrupamentos obtidos com o algoritmo KMeans utilizando redução de dimensionalidade por Análise de Componentes Principais PCA Figura 5 Visualização dos clusters gerados pelo KMeans com redução PCA Fonte Adaptado pelo autor 2025 2123 ANÁLISE FATORIAL A análise fatorial configurase como uma das técnicas estatísticas multivariadas mais relevantes quando o objetivo é compreender a estrutura latente de um conjunto de variáveis interrelacionadas Sua aplicação tem como finalidade principal reduzir a dimensionalidade dos dados por meio da identificação de um número reduzido de fatores subjacentes não observáveis diretamente que juntos explicam a maior parte da variabilidade comum existente entre os indicadores analisados Tratase portanto de uma ferramenta que permite sintetizar informações complexas em estruturas mais manejáveis e interpretáveis facilitando tanto a visualização quanto a compreensão dos fenômenos estudados De acordo com Höppner et al 2018 a análise fatorial é amplamente empregada para revelar padrões ocultos nos dados agrupando variáveis com alto grau de correlação em torno de fatores comuns que representam dimensões 37 latentes de um fenômeno estudado Esse agrupamento é particularmente útil em contextos nos quais se busca entender o comportamento de consumidores identificar segmentos de mercado ou estudar fenômenos sociais e organizacionais em que múltiplas variáveis podem estar relacionadas a construtos teóricos mais amplos O processo metodológico iniciase com a construção da matriz de correlação entre as variáveis observadas a partir da qual se procede à extração dos fatores Entre os métodos mais utilizados para essa extração destacase a Análise de Componentes Principais PCA conforme descrito por Thompson 2004 que permite decompor a variância total dos dados em componentes independentes Cada fator extraído é associado a um autovalor eigenvalue que representa a quantidade de variância explicada por aquele fator específico Além disso são obtidos autovetores eigenvectors que indicam as cargas fatoriais isto é o grau de correlação entre cada variável observada e os fatores latentes Ao considerar essas cargas é possível interpretar os fatores como combinações lineares das variáveis originais sendo que apenas os fatores com variância significativa geralmente com autovalor superior a 1 são mantidos para análise Assim determinase o número ideal de fatores que conseguem explicar uma parcela substancial da variância total do modelo ao mesmo tempo em que se evita a inclusão de fatores espúrios ou pouco representativos Quanto maior o número de fatores retidos maior será a capacidade explicativa da análise porém menor será a simplificação do modelo por isso é fundamental buscar um equilíbrio entre parsimônia e poder explicativo Uma ferramenta complementar que contribui para essa decisão é o Scree Plot ou gráfico de autovalores Essa representação visual permite avaliar o ponto de inflexão da curva indicando quantos fatores devem ser considerados relevantes Esse ponto geralmente associado ao critério de Kaiser que considera autovalores maiores que 1 marca a transição entre fatores significativos e fatores com contribuição marginal para a explicação da variância A seguir apresentase a Figura 6 que ilustra o Scree Plot gerado a partir da análise dos dados do presente estudo Figura 6 Scree Plot Distribuição dos Autovalores por Componente Principal 37 38 Fonte Adaptado pelo autor 2025 Na Figura 6 observase que os dois primeiros componentes principais apresentam autovalores superiores a 1 indicando que explicam uma parcela significativa da variância total do modelo A partir do terceiro componente os autovalores diminuem gradativamente evidenciando uma inclinação menos acentuada na curva Esse comportamento sugere a presença de um ponto de inflexão entre o segundo e o terceiro fator o que reforça a ideia de que os dois primeiros fatores são os mais relevantes para explicar os dados A interpretação adequada desse gráfico auxilia na seleção de um modelo mais parcimonioso evitando tanto a subextração quanto a superextração de fatores A escolha final do número de componentes a serem mantidos deve considerar não apenas os critérios estatísticos como o valor dos autovalores e o percentual de variância explicada mas também o conhecimento teórico do pesquisador e a aplicabilidade prática dos fatores no contexto do estudo Dessa forma o Scree Plot constitui uma ferramenta valiosa para a validação empírica da estrutura fatorial adotada Nesse sentido a análise fatorial desempenha um papel estratégico na redução da complexidade dos dados viabilizando interpretações mais robustas e direcionadas Sua utilidade se estende a diversos campos da pesquisa acadêmica e aplicada incluindo psicometria marketing educação ciências sociais e comportamento do consumidor sendo considerada uma técnica essencial no arsenal metodológico da estatística multivariada 2124 ANALISE DE COMPONENTES PRINCIPAIS PCA A Análise de Componentes Principais PCA Principal Component Analysis é uma das técnicas estatísticas multivariadas mais consagradas para a redução da dimensionalidade de dados Sua principal finalidade consiste em transformar um conjunto possivelmente grande de variáveis interrelacionadas em um novo conjunto menor e composto por variáveis não correlacionadas os chamados 39 componentes principais Esses componentes são combinações lineares das variáveis originais construídas de modo a reter o máximo possível da variância total dos dados no menor número de dimensões Dessa forma a PCA permite preservar a essência da informação contida nos dados originais ao mesmo tempo em que elimina redundâncias e simplifica as estruturas De acordo com Hair et al 2009 a aplicação da PCA iniciase com a padronização das variáveis quando possuem escalas diferentes seguida pela construção da matriz de covariância entre os atributos A partir dessa matriz são calculados os autovalores que indicam a quantidade de variância explicada por cada componente e os autovetores que definem as direções principais da variabilidade nos dados Os componentes principais são então ordenados com base na variância que explicam sendo o primeiro componente aquele que representa a maior variabilidade dos dados o segundo componente representa a maior variância residual ortogonal ao primeiro e assim sucessivamente A Figura 7 apresentada a seguir ilustra o Scree Plot gerado a partir da decomposição PCA do conjunto de dados analisado neste estudo Observase que os dois primeiros componentes explicam uma fração significativa da variância total o que sugere que a maior parte da informação contida nas variáveis originais pode ser representada de forma eficiente em apenas duas dimensões Este tipo de visualização é particularmente útil na definição do número ideal de componentes a serem retidos pois destaca o ponto de inflexão ou joelho onde o acréscimo de novos componentes passa a representar ganhos marginais na variância explicada Figura 7 Scree Plot dos Autovalores por Componente Principal Fonte Adaptado pelo autor 2025 A PCA é especialmente útil em cenários nos quais há um grande número de variáveis que podem dificultar análises ou visualizações diretas Ao condensar essas variáveis em poucos componentes é possível gerar gráficos de dispersão bidimensionais ou tridimensionais que revelam padrões agrupamentos ou outliers 39 40 nos dados Além disso ao eliminar dimensões com variância muito baixa frequentemente associadas a ruídos a PCA melhora o desempenho de modelos computacionais como algoritmos de clusterização classificação e regras de associação favorecendo maior acurácia e menor sobreajuste A utilidade prática da PCA também é observada em estudos como o de Cumps et al 2009 que empregaram essa técnica na etapa de préprocessamento para otimizar a indução de regras com o algoritmo AntMiner O objetivo era extrair regras compreensíveis sobre o alinhamento estratégico entre negócios e Tecnologias da Informação e Comunicação TIC utilizando um extenso conjunto de dados com informações provenientes de 641 organizações Nesse contexto a PCA foi fundamental para reduzir a complexidade dos dados sem comprometer a capacidade explicativa dos modelos gerados evidenciando sua relevância como etapa preparatória na análise de dados em ambientes corporativos e acadêmicos Além de atuar como ferramenta de redução de dimensionalidade a PCA desempenha um papel crítico na identificação de multicolinearidade entre variáveis na priorização de atributos relevantes e na obtenção de insights estruturais sobre o conjunto de dados Sua aplicabilidade é transversal a diversas áreas do conhecimento como finanças biologia marketing engenharia ciência de dados e ciências sociais consolidandose como um recurso metodológico de grande valor em estudos quantitativos 213 DATA MINING PARA CLASSIFICAÇÃO 2131 ALGORITMOS DE CLASSIFICAÇÃO Diante da crescente demanda por análise de grandes volumes de dados e da rápida evolução das tecnologias de inteligência artificial a aplicação de técnicas analíticas avançadas tornouse não apenas relevante mas indispensável para a extração de insights estratégicos e a tomada de decisões baseadas em evidências Em um cenário em que a complexidade e a variedade dos dados crescem exponencialmente métodos como árvores de decisão redes neurais artificiais e algoritmos genéticos têm se consolidado como ferramentas centrais no campo do aprendizado de máquina machine learning e da mineração de dados data mining Essas técnicas vêm revolucionando a forma como as organizações e pesquisadores tratam os dados permitindo o reconhecimento de padrões ocultos a antecipação de comportamentos futuros e a automação de processos decisórios Particularmente os algoritmos de classificação destacamse por sua capacidade de categorizar observações com base em características previamente identificadas o que é essencial em contextos que envolvem diagnóstico segmentação previsão de churn recomendação de produtos entre outros Entre essas abordagens as árvores de decisão têm como principal atrativo a sua interpretabilidade os modelos gerados por esse método são compostos por regras simples estruturadas de forma hierárquica que permitem ao analista compreender o racional por trás de cada decisão ou classificação Essa transparência é especialmente valiosa em áreas que exigem rastreabilidade e explicações claras como o setor financeiro e a área da saúde 41 As redes neurais artificiais por sua vez inspiradas no funcionamento do cérebro humano apresentam notável capacidade de capturar relações não lineares entre variáveis sendo amplamente utilizadas em tarefas que envolvem reconhecimento de padrões complexos classificação multiclasse predição contínua e identificação de anomalias Embora exijam maior poder computacional e apresentem menor interpretabilidade em comparação com as árvores de decisão seu desempenho preditivo em grandes bases de dados é frequentemente superior especialmente quando ajustadas por meio de técnicas de regularização e otimização Os algoritmos genéticos por fim representam uma classe de métodos inspirados nos princípios da seleção natural e da evolução biológica Sua principal aplicação no contexto de mineração de dados está na otimização de modelos preditivos onde são empregados para selecionar subconjuntos ideais de variáveis ajustar hiperparâmetros e descobrir regras de classificação de alta qualidade Um exemplo notório de aplicação é a técnica AntMiner um algoritmo baseado em colônia de formigas e princípios evolutivos utilizado para a indução de regras interpretáveis e a previsão de churn de clientes combinando eficiência e inteligibilidade Neste trabalho cada uma dessas abordagens será discutida em profundidade com foco na aplicação prática e na análise comparativa dos resultados obtidos As árvores de decisão serão exploradas como ferramenta explicativa e interpretável para regras de classificação as redes neurais artificiais serão implementadas como modelo preditivo de maior complexidade e poder de generalização e os algoritmos genéticos serão utilizados como mecanismo de otimização e extração de conhecimento com destaque para sua flexibilidade em problemas de múltiplos objetivos e espaços de busca extensos Essa diversidade metodológica permitirá uma análise abrangente do problema proposto considerando tanto o desempenho quanto a explicabilidade das soluções Figura 8 Comparação entre abordagens de classificação interpretabilidade desempenho preditivo e complexidade computacional 41 42 Fonte Adaptado pelo autor 2025 A Figura 8 ilustra de forma comparativa os três métodos estudados com ênfase em três critérios analíticos interpretabilidade desempenho e complexidade Notase que as árvores de decisão se destacam pela alta transparência e facilidade de explicação enquanto as redes neurais apresentam maior desempenho em predições complexas porém com menor explicabilidade Já os algoritmos genéticos ocupam uma posição intermediária oferecendo boa capacidade de otimização com interpretabilidade moderada o que os torna atrativos em contextos híbridos Essa visualização contribui para fundamentar a escolha metodológica conforme os objetivos específicos do estudo e as restrições do domínio de aplicação 2132 DECISION TREE ARVORES DE DECISÃO PARA REGRAS DE CLASSIFICAÇÃO A técnica da árvore de decisão é amplamente utilizada no aprendizado supervisionado para tarefas de classificação e regressão destacandose como uma das abordagens mais intuitivas e explicáveis dentro do campo da ciência de dados Ela opera segmentando iterativamente o espaço de atributos criando partições que visam maximizar a pureza dos subconjuntos resultantes em relação à variávelalvo Em outras palavras o algoritmo constrói uma estrutura hierárquica em formato de árvore onde cada nó interno representa uma decisão baseada em uma variável e os nósfolha indicam a predição final classe ou valor Uma das grandes vantagens das árvores de decisão é sua capacidade interpretativa pois o modelo resultante pode ser facilmente visualizado e compreendido até mesmo por especialistas não técnicos Essa característica é especialmente valiosa em domínios como o marketing a saúde e o setor financeiro onde a transparência na tomada de decisão é tão importante quanto a precisão dos modelos LAROCHELLE et al 2022 Ao empregar o algoritmo da árvore de decisão em contextos comerciais como na segmentação de clientes ou previsão de churn tornase viável estimar a probabilidade de um cliente adquirir ou abandonar um produto ou serviço com base em seu perfil sociodemográfico comportamental ou histórico de consumo A estrutura hierárquica da árvore facilita a identificação dos fatores mais relevantes para cada decisão fornecendo insights práticos e acionáveis para gestores e analistas MOLNAR 2022 Segundo Cumps et al 2009 técnicas de mineração de dados fundamentadas em árvores de decisão demonstram elevada eficiência na classificação de bases complexas e heterogêneas permitindo a inferência de regras claras e concisas diretamente a partir dos dados coletados Um exemplo recente da eficácia dessa abordagem é apresentado no estudo de Chen et al 2021 publicado no Journal of Marketing Analytics que utilizou árvores de decisão combinadas com análise fatorial para prever rotatividade de clientes em empresas de telecomunicações Os autores conseguiram identificar os principais drivers de 43 retenção de clientes como tempo de contrato volume de reclamações e pacotes promocionais com elevada acurácia e interpretabilidade Além disso o uso de algoritmos de árvore de decisão quando combinado com métodos de explicação como os valores SHAP SHapley Additive exPlanations conforme proposto por Lundberg et al 2020 pode aprimorar significativamente a capacidade de interpretação dos modelos elucidando o impacto individual de cada variável em cada predição Esse nível de explicabilidade é altamente valorizado em aplicações empresariais sobretudo em contextos regulados como o setor bancário Como ressalta Domingos 2015 embora árvores de decisão não sejam uma solução universal para todos os problemas sua robustez simplicidade e eficiência computacional as tornam ferramentas de primeira escolha em muitas aplicações do mundo real Figura 9 Exemplo esquemático de uma árvore de decisão simulando a classificação de clientes com base em perfil e comportamento Fonte Adaptado pelo autor 2025 2133 RF RANDOM FOREST A técnica Random Forest ou Floresta Aleatória é uma das abordagens mais robustas e eficazes do aprendizado de máquina supervisionado enquadrandose no paradigma de ensemble learning que consiste na combinação de múltiplos modelos preditivos com o objetivo de melhorar o desempenho geral da previsão Proposta por Leo Breiman em 2001 essa metodologia introduz uma estratégia engenhosa de agregação de diversas árvores de decisão modelos naturalmente instáveis e propensos ao sobreajuste a partir de uma dupla aleatorização tanto nas amostras de dados utilizadas para treinar cada árvore quanto nas variáveis consideradas na divisão dos nós durante o crescimento da árvore Esse processo de construção utiliza a técnica de bootstrap aggregating ou bagging onde cada árvore é treinada sobre uma amostra aleatória com reposição 43 44 dos dados originais Paralelamente em cada divisão interna da árvore apenas um subconjunto aleatório de variáveis é considerado o que promove diversidade entre as árvores e evita que todas aprendam os mesmos padrões Como resultado o modelo agregado é capaz de capturar uma gama muito mais ampla de estruturas e padrões nos dados A combinação das previsões individuais das árvores realizada por votação majoritária no caso de classificação ou média aritmética em regressão reduz significativamente a variância do modelo sem aumentar o viés proporcionando maior estabilidade e generalização Essa característica torna o Random Forest extremamente apropriado para lidar com problemas complexos especialmente em contextos onde os dados possuem alta dimensionalidade ruído colinearidade entre variáveis ou relações não lineares difíceis de modelar com métodos tradicionais Sua aplicabilidade abrange uma grande diversidade de domínios desde bioinformática onde é utilizado na análise de expressão gênica até finanças marketing diagnósticos médicos e análise preditiva de comportamento do consumidor No campo da saúde por exemplo a Random Forest tem sido aplicada com sucesso para prever doenças crônicas como diabetes hipertensão ou doenças cardíacas utilizando bases de dados compostas por variáveis clínicas como idade IMC níveis de colesterol histórico familiar e hábitos de vida A capacidade do modelo de detectar interações complexas entre atributos e a sua robustez diante de outliers e dados desbalanceados são diferenciais decisivos nesse tipo de aplicação onde decisões baseadas em dados podem impactar diretamente na qualidade do tratamento e na alocação de recursos hospitalares Outro ponto positivo relevante da Random Forest é sua capacidade de estimar a importância relativa das variáveis feature importance Essa funcionalidade oferece uma visão hierárquica dos atributos mais relevantes para as decisões do modelo contribuindo para a interpretabilidade dos resultados e facilitando a comunicação com públicos não técnicos Embora seja frequentemente caracterizado como uma técnica de caixa preta devido à complexidade da estrutura interna gerada pela floresta de árvores a análise de importância das variáveis e os métodos complementares como SHAP SHapley Additive exPlanations têm contribuído para a democratização do entendimento e da confiança em suas decisões mesmo em contextos sensíveis Do ponto de vista computacional a Random Forest apresenta boa escalabilidade e paralelismo sendo possível treinar múltiplas árvores de forma independente Isso permite sua aplicação em bases de dados extensas e em problemas de grande escala com eficiência e tempo de resposta aceitáveis Diante desse conjunto de atributos precisão preditiva robustez a ruído e variáveis irrelevantes flexibilidade e interpretação parcial a técnica Random Forest configurase como uma das ferramentas mais completas do repertório de ciência de dados contemporânea Sua inclusão neste trabalho visa não apenas oferecer uma comparação metodológica com técnicas como árvores de decisão isoladas e redes neurais mas também evidenciar sua eficácia na modelagem de 45 fenômenos multivariados especialmente em contextos empresariais voltados à previsão e segmentação de clientes 2134 RNA REDES NEURAIS ARTIFICIAIS As Redes Neurais Artificiais RNAs constituem uma classe de algoritmos de aprendizado de máquina inspirados no funcionamento do cérebro humano especialmente na forma como os neurônios biológicos transmitem sinais Em sua essência as RNAs são compostas por unidades computacionais interconectadas os chamados neurônios artificiais organizadas em camadas uma camada de entrada uma ou mais camadas ocultas e uma camada de saída Cada conexão entre os neurônios possui um peso ajustável que é modificado durante o processo de treinamento para minimizar o erro entre a saída prevista e o valor real O funcionamento básico das RNAs envolve a propagação da informação da entrada para a saída e em seguida a aplicação do algoritmo de retropropagação do erro backpropagation responsável por recalibrar os pesos sinápticos com base no gradiente do erro Esse mecanismo iterativo permite que a rede aprenda padrões complexos e realize tarefas como classificação regressão previsão e até mesmo geração de dados Conforme destacado por Rumelhart et al 1986 as redes neurais têm a capacidade de se adaptar a partir de exemplos aprendendo relações não explícitas nos dados por meio de treinamento supervisionado Essa capacidade de capturar relações não lineares e interações entre variáveis torna as RNAs particularmente adequadas para contextos de alta complexidade onde modelos estatísticos tradicionais apresentam limitações Um exemplo emblemático dessa superioridade é apresentado por Pollak 2021 que demonstrou o desempenho superior das redes neurais na previsão do valor do tempo de vida do cliente Customer Lifetime Value CLV especialmente em bases com forte heterogeneidade de comportamento Ao aprender representações latentes dos padrões históricos de consumo as RNAs conseguiram prever o CLV com maior precisão e menor erro absoluto médio quando comparadas a modelos baseados em regressão ou árvores de decisão Outro estudo marcante é o de Su et al 2023 publicado no Journal of Marketing Analytics que utilizou redes neurais combinadas com transformações wavelet e mecanismos de atenção para prever o CLV em ambientes de publicidade online As wavelets permitiram decompor os dados de séries temporais em componentes de diferentes frequências o que possibilitou capturar variações comportamentais em diferentes escalas de tempo Já os grafos de atenção atuaram no reconhecimento de padrões voláteis e esparsos aprendendo representações eficazes dos usuários e melhorando significativamente a robustez das previsões Tal abordagem destaca a flexibilidade das RNAs em lidar com dados temporais não estacionários e fragmentados características comuns em plataformas digitais Apesar de seu potencial expressivo as redes neurais frequentemente enfrentam críticas em relação à sua baixa interpretabilidade De fato por serem compostas por múltiplas camadas de transformações matemáticas complexas elas funcionam como verdadeiras caixaspretas dificultando a compreensão direta de como a decisão foi tomada Essa limitação motivou o desenvolvimento do campo da 45 46 XAI Explainable Artificial Intelligence que visa tornar os modelos de IA mais transparentes e compreensíveis para seres humanos Estudos como os de Adadi e Berrada 2018 e Arrieta et al 2020 apontam diversas técnicas para explicabilidade como LIME SHAP e visualizações de ativação de camadas internas que auxiliam analistas a identificar as características mais influentes em cada predição Além disso pesquisas como a de Xie et al 2019 validam a aplicação das RNAs em contextos práticos como a previsão de churn abandono de clientes utilizando dados transacionais e demográficos de clientes em tempo real Os resultados mostraram que as RNAs não apenas atingem altos níveis de acurácia mas também são capazes de identificar clientes em risco antes de eventos críticos permitindo ações proativas por parte das empresas Em síntese as Redes Neurais Artificiais constituem uma poderosa ferramenta de modelagem preditiva destacandose pela sua capacidade de generalizar padrões em grandes volumes de dados mesmo quando as relações entre variáveis são complexas não lineares ou desconhecidas No entanto essa sofisticação exige maior esforço computacional e soluções específicas para interpretação sobretudo quando a transparência é crucial para decisões sensíveis ou reguladas Ainda assim com o avanço das técnicas de interpretabilidade as RNAs continuam sendo protagonistas em aplicações de ciência de dados inteligência artificial e análise de comportamento do consumidor MOLNAR 2022 2135 AG ALGORITMOS GENÉTICOS Os Algoritmos Genéticos AGs representam uma das abordagens mais inovadoras dentro do campo da inteligência artificial e da ciência de dados especialmente no que se refere à resolução de problemas de otimização e busca em espaços complexos de soluções Inspirados nos mecanismos naturais de evolução biológica como a seleção natural o cruzamento genético e a mutação os AGs simulam de forma computacional o processo de sobrevivência dos mais aptos para encontrar iterativamente soluções de alto desempenho Esses algoritmos operam a partir de uma população inicial de soluções aleatórias codificadas geralmente em estruturas semelhantes a cadeias de DNA cromossomos A cada geração os indivíduos mais adaptados isto é as soluções com melhor desempenho segundo uma função de avaliação fitness são selecionados para reprodução gerando novas soluções por meio de operadores de cruzamento e mutação Ao longo de múltiplas iterações o algoritmo converge para soluções cada vez mais adequadas ao problema proposto mesmo em ambientes de alta complexidade e múltiplas variáveis No contexto de mineração de dados e aprendizado de máquina os algoritmos genéticos têm se mostrado ferramentas extremamente valiosas para a modelagem preditiva e a otimização de modelos Sua flexibilidade permite que sejam aplicados tanto na seleção de atributos relevantes quanto na definição de parâmetros ideais para outros algoritmos preditivos 47 Um exemplo notável é apresentado por Verbeke et al 2011 que exploram a aplicação da técnica AntMiner um algoritmo baseado em colônia de formigas Ant Colony Optimization ACO que incorpora conceitos dos AGs para desenvolver classificadores baseados em regras A grande vantagem dessa abordagem está na sua capacidade de gerar modelos preditivos que além de serem eficazes em termos de acurácia são também facilmente interpretáveis por usuários não técnicos um diferencial essencial em ambientes corporativos que demandam decisões justificáveis e transparentes como no caso da previsão de churn de clientes Em outro estudo Verhoeven et al 2023 demonstram como os AGs podem ser aplicados de forma eficaz na otimização da gestão de receitas particularmente em cenários que envolvem planejamento de recursos alocação de demanda e mix de produtos sob condições de incerteza Nessas situações os algoritmos genéticos destacamse por sua habilidade de explorar o espaço de busca de forma inteligente evitando soluções locais e encontrando configurações robustas que atendem simultaneamente a múltiplos objetivos e restrições O ciclo evolutivo promovido pelos AGs seleção cruzamento e mutação permite a adaptação contínua do modelo às particularidades do problema analisado o que os torna especialmente úteis em cenários de alta dimensionalidade ausência de soluções analíticas e relações não lineares entre variáveis Sua capacidade de incorporação de conhecimento prévio do domínio também contribui para a geração de modelos mais relevantes e aderentes à realidade prática A Figura abaixo ilustra de forma esquemática o funcionamento geral de um Algoritmo Genético desde a criação da população inicial até a convergência para uma solução otimizada Figura 10 Estrutura de Funcionamento de um Algoritmo Genético 47 48 Fonte Adaptado pelo autor 2025 Ao comparar os AGs com outras técnicas de aprendizado de máquina discutidas neste trabalho como Árvores de Decisão Random Forests e Redes Neurais Artificiais percebese que cada abordagem oferece vantagens distintas As Árvores de Decisão e a Random Forest são valorizadas por sua capacidade interpretativa e estabilidade preditiva as Redes Neurais se destacam pela flexibilidade e acurácia em dados complexos e volumosos e os Algoritmos Genéticos por sua vez sobressaemse em problemas de otimização multivariada onde a busca por uma configuração ótima é mais importante do que a simples classificação Dessa forma os AGs não competem com essas técnicas mas sim as complementam permitindo a construção de pipelines híbridos de modelagem e análise nos quais a robustez precisão e interpretabilidade são maximizadas Seu uso estratégico alinhado ao conhecimento do domínio e aos objetivos analíticos representa uma poderosa alternativa para transformar dados brutos em insights acionáveis em diversas áreas como marketing logística saúde e finanças 22 SEGMENTAÇÃO DE CLIENTES No contexto empresarial contemporâneo caracterizado por mercados cada vez mais competitivos dinâmicos e saturados as organizações enfrentam o desafio constante de fidelizar seus clientes manter uma base de consumidores engajada e simultaneamente otimizar processos de venda que se tornam cada vez mais complexos e personalizados Nesse cenário a segmentação de clientes emerge 49 assim como uma metodologia crucial e estratégica para refinar ações de marketing desenvolver campanhas direcionadas aprimorar a retenção de clientes e acima de tudo maximizar o valor do tempo de vida do cliente LTV Customer Lifetime Value que representa o retorno financeiro estimado que um cliente pode gerar ao longo de sua jornada com a empresa Para garantir a eficácia dessa abordagem é fundamental aplicar técnicas analíticas e estatísticas robustas como a avaliação da pureza e uniformidade dos segmentos criados a diferenciação clara entre os grupos a aplicação rigorosa de testes de hipóteses e ainda a análise de correlação entre os segmentos e variáveischave do negócio Esses elementos são considerados essenciais não apenas para validar os agrupamentos obtidos mas também para assegurar que eles gerem insights práticos e acionáveis para as decisões estratégicas da organização No desenvolvimento deste estudo diversos aspectos críticos e interdependentes da segmentação de clientes são abordados de forma sistemática Inicialmente a pureza e uniformidade dos segmentos são avaliadas com o objetivo de verificar a coesão interna dos grupos formados garantindo que os clientes dentro de cada segmento compartilhem características similares e comportamentos convergentes Em seguida a diferenciação entre segmentos é cuidadosamente explorada para assegurar que os grupos se distingam significativamente entre si de modo que possam ser utilizados de forma eficaz na personalização de ofertas comunicação e estratégias comerciais Os testes de hipóteses são empregados como ferramenta estatística para comparar os segmentos entre si e analisar características específicas dos clientes permitindo validar a significância das diferenças observadas com base em critérios objetivos e métricas confiáveis Adicionalmente a análise de correlação entre os segmentos e variáveis de negócio como ticket médio frequência de compra canal preferencial ou taxa de recompra auxilia na identificação de quais grupos contribuem de maneira mais relevante para o desempenho geral da empresa viabilizando ações focadas na maximização do retorno sobre investimento ROI Por fim conceitos fundamentais como o Custo de Aquisição de Cliente CAC e o próprio LTV são discutidos de maneira aprofundada a fim de proporcionar uma compreensão mais precisa sobre a rentabilidade viabilidade econômica e impacto financeiro que cada segmento representa para o negócio Essa análise integrada permite identificar oportunidades de crescimento sustentável ajustes nas estratégias de captação e retenção e um alinhamento mais eficaz entre os objetivos de marketing e os resultados financeiros da organização 221 PUREZA E UNIFORMIDADE DOS SEGMENTOS A pureza e a uniformidade são critérios cruciais utilizados para avaliar a consistência interna de segmentos ou grupos formados em um conjunto de dados A pureza mede a proporção de membros em um grupo que compartilham a mesma característicaalvo indicando a predominância de uma categoria específica dentro do segmento Esse indicador revela se os elementos do grupo pertencem em sua maioria a uma única classe como por exemplo um mesmo perfil de consumo ou faixa etária A uniformidade por sua vez analisa o quão homogêneas são as 49 50 características dentro do grupo como um todo demonstrando o grau de similaridade entre os membros em múltiplas dimensões o que fortalece a interpretação sobre a coesão do segmento em termos mais amplos A avaliação da pureza e uniformidade dos grupos é fundamental para analisar a coesão interna de um conjunto de clientes permitindo verificar se os agrupamentos obtidos realmente fazem sentido do ponto de vista analítico e estratégico Essas métricas são indicativos diretos da similaridade entre os membros de um grupo em termos das características observadas como preferências de compra frequência de interação localização geográfica ou comportamento online Quanto mais homogêneo for o grupo maior a chance de que estratégias direcionadas tenham sucesso uma vez que as necessidades dos clientes tendem a ser mais alinhadas Para mensurar os níveis de pureza e uniformidade ferramentas de programação como o Python podem ser utilizadas para implementar os cálculos necessários por meio de bibliotecas como scikitlearn numpy e pandas resultando em interpretações quantitativas que sustentam decisões práticas Nesse contexto diferentes cenários podem ser observados Alta Pureza Indica que a maioria dos membros do grupo compartilha a mesma característica dominante implicando em uma forte coesão interna e maior previsibilidade no comportamento dos clientes Isso favorece ações segmentadas mais eficazes Baixa Pureza Sinaliza que o grupo possui uma variedade de características distintas mostrando uma ligação interna fraca e elevada heterogeneidade Isso pode indicar necessidade de reagrupamento ou refinamento dos critérios de segmentação A uniformidade pode ser mensurada utilizando o conceito de Entropia oriundo da Teoria da Informação que expressa a quantidade de desordem ou incerteza em um conjunto de dados Na análise de grupos Baixa Entropia Aponta para uma grande uniformidade significando que os membros do grupo são altamente similares entre si e que há pouca variação interna Isso reforça a utilidade do grupo para estratégias específicas Alta Entropia Indica uma grande diversidade dentro do grupo sugerindo baixa uniformidade maior variabilidade e consequentemente menor aplicabilidade de ações padronizadas Na análise de segmentação um grupo é considerado puro quando a maioria de seus membros compartilham características similares resultando em uma coesão interna elevada e bem definida Grupos com alta pureza e baixa entropia são preferidos pois oferecem maior clareza para interpretação dos dados e permitem decisões mais direcionadas como ofertas personalizadas ou comunicações específicas Por exemplo no estudo realizado por Dahana et al 2019 a pureza e uniformidade dos grupos foram examinadas com base nas características de estilo 51 de vida e comportamento de compra dos clientes demonstrando que segmentos bem definidos podem melhorar significativamente a precisão das previsões do valor vitalício do cliente LTV ao facilitar a identificação de padrões de longo prazo Além disso em seu artigo Verbeke et al 2011 ressaltam a importância do uso de algoritmos genéticos como o AntMiner para garantir a coesão interna dos grupos promovendo agrupamentos orientados por regras claras e compreensíveis o que contribui para uma melhor interpretação e aplicação dos resultados pelos gestores de marketing e analistas de dados 222 DIFERENCIAÇÃO ENTRE SEGMENTO A distinção entre os grupos é fundamental para garantir que sejam exclusivos e abrangentes ao mesmo tempo Essa distinção clara assegura que cada grupo represente um perfil específico e não se sobreponha a outros o que facilita a alocação eficiente de recursos e a definição de mensagens e ações customizadas Uma clara separação entre os grupos facilita a criação de estratégias de marketing direcionadas tornandoas mais eficazes e eficientes já que permite identificar necessidades comportamentos e preferências de forma mais precisa Essa diferenciação torna possível a personalização de campanhas ofertas canais de comunicação e até mesmo o desenvolvimento de produtos específicos para determinados segmentos A diferenciação entre grupos pode ser medida por meio de diferentes métricas e métodos estatísticos que auxiliam na quantificação da distância variação e significância entre os agrupamentos Alguns deles são amplamente utilizados na literatura e na prática analítica Distância entre Centros dos Agrupamentos Centroides Análise de Variância ANOVA Teste de Hipóteses Testes T A distância entre centros dos agrupamentos Centroides é uma maneira direta e intuitiva de avaliar a diferenciação entre grupos calculando a distância euclidiana ou outras métricas como Manhattan ou Mahalanobis entre os centroides pontos médios dos agrupamentos Quanto maior for essa distância maior será a diferenciação entre os grupos em termos das variáveis consideradas na segmentação ou seja Alta Distância Sinaliza uma grande diferenciação entre os grupos sugerindo que os agrupamentos são bem separados no espaço de atributos e possuem características únicas o que favorece o uso prático dos segmentos Baixa Distância Indica uma baixa diferenciação mostrando que os agrupamentos são semelhantes e podem não representar grupos distintos de forma clara exigindo possivelmente revisão dos critérios de segmentação A Análise de Variância ANOVA é uma técnica estatística utilizada para comparar as médias de várias amostras ou grupos e verificar se pelo menos uma delas difere significativamente das outras Esse método é essencial para validar se 51 52 as diferenças observadas entre os grupos são estatisticamente significativas ou se podem ser atribuídas ao acaso Os principais resultados da ANOVA são Um Festatístico alto e um valorp baixo geralmente 005 indicam que pelo menos uma média de grupo difere significativamente das outras sugerindo distinção real entre os grupos Um Festatístico baixo e um valorp alto sugerem que não há evidências suficientes para afirmar que as médias são diferentes enfraquecendo a validade da segmentação Os testes de hipótese Testes T são utilizados para comparar as médias de dois grupos e verificar se são estatisticamente diferentes entre si Esses testes são úteis em análises parapar especialmente quando o número de grupos é pequeno Para comparações múltiplas a ANOVA é mais apropriada embora os testes T continuem úteis em análises pontuais As interpretações são similares Um Testatístico alto e um valorp baixo apontam que as médias dos dois grupos são significativamente diferentes Um Testatístico baixo e um valorp alto indicam que não há diferença estatisticamente significativa entre as médias dos grupos comparados De acordo com estudos de Dahana et al 2019 a diferenciação entre grupos foi feita com base em características comportamentais e psicográficas dos consumidores resultando em segmentos que apresentaram diferenças significativas em métricas como o valor vitalício do cliente LTV permitindo estratégias específicas e mais rentáveis para cada perfil Da mesma forma Cumps et al 2009 empregaram técnicas baseadas em algoritmos genéticos para estruturar grupos claramente distintos assegurando que cada agrupamento tivesse identidade própria e viabilizando a implementação de estratégias comerciais mais direcionadas eficazes e alinhadas aos objetivos do negócio 223 MATRIZ DE CONFUSÃO A matriz de confusão é uma ferramenta essencial e amplamente utilizada para avaliar o desempenho de modelos de classificação como os empregados para prever o Valor do Tempo de Vida do Cliente LTV ou a probabilidade de churn rotatividade Ela organiza em forma tabular os resultados das previsões feitas pelo modelo em relação aos valores reais conhecidos permitindo a identificação clara de acertos e erros cometidos pelo algoritmo Essa visualização facilita o diagnóstico de problemas como desbalanceamento de classes ou viés de previsão A matriz apresenta os seguintes elementos fundamentais Verdadeiros Positivos VP instâncias positivas corretamente classificadas como positivas Falsos Positivos FP instâncias negativas incorretamente classificadas como positivas Verdadeiros Negativos VN instâncias negativas corretamente classificadas como negativas 53 Falsos Negativos FN instâncias positivas incorretamente classificadas como negativas A partir de uma matriz de confusão diversas métricas de desempenho podem ser extraídas para fornecer uma análise detalhada da performance do classificador permitindo avaliar sua eficácia sob diferentes perspectivas As principais métricas incluem Acurácia A proporção total de previsões corretas VP VN sobre o total de amostras analisadas Representa uma visão geral do desempenho do modelo mas pode ser enganosa em casos de classes desbalanceadas Precisão ou Valor Preditivo Positivo Mede a proporção de verdadeiros positivos entre todos os casos classificados como positivos Indica o quão confiável é o modelo quando prevê uma classe positiva Recall ou SensibilidadeRevocação Mede a capacidade do modelo em identificar corretamente todas as instâncias positivas reais É especialmente importante em contextos onde a omissão de positivos é crítica como retenção de clientes com alto LTV F1Score Combina precisão e recall em uma única métrica calculando a média harmônica entre elas É útil quando há necessidade de balancear ambas as métricas especialmente em cenários com dados desbalanceados Especificidade Mede a capacidade do modelo de identificar corretamente as instâncias negativas ou seja quantos verdadeiros negativos foram corretamente detectados entre todos os casos realmente negativos Essas métricas são especialmente valiosas em contextos empresariais pois permitem entender o desempenho de modelos que classificam clientes com 53 54 diferentes potenciais de retorno LTV alto médio ou baixo bem como antecipar clientes propensos à evasão No estudo de Zhang et al 2022 a matriz de confusão foi empregada como ferramenta central para avaliar a precisão das previsões do LTV evidenciando a efetividade do método proposto na classificação correta dos clientes com maior potencial de receita Os autores demonstraram que o uso de métricas derivadas da matriz ajudou a aprimorar os modelos por meio de ajustes finos nos parâmetros e balanceamento entre classes Similarmente Verbeke et al 2011 também utilizam a matriz de confusão para avaliar a acurácia dos modelos preditivos especialmente na previsão da rotatividade de clientes churn ressaltando a importância dessa ferramenta na validação e no refinamento contínuo dos modelos de previsão A análise detalhada dos erros de classificação permitiu aos autores identificar padrões ocultos e ajustar algoritmos para melhorar a sensibilidade a classes minoritárias que são de alta relevância estratégica para o negócio 224 TESTES E HIPÓTESES Os testes de hipóteses são amplamente utilizados para comparar grupos e determinar se as diferenças observadas nas características dos clientes possuem significância estatística Essas análises permitem inferir com base em dados amostrais se as variações entre os grupos são reais ou se poderiam ter ocorrido por acaso contribuindo para decisões mais fundamentadas e confiáveis Ao aplicar testes de hipóteses no contexto de segmentação evitase a adoção de estratégias baseadas em padrões espúrios ou interpretações subjetivas promovendo maior rigor na análise dos dados Entre os testes mais comuns estão o teste t de Student para comparação entre dois grupos e a ANOVA para múltiplos grupos Ambos são úteis para comparar médias de variáveis como frequência de compra valor médio gasto ou engajamento digital A interpretação dos resultados é feita com base no valorp que representa a probabilidade de se observar uma diferença tão extrema quanto a verificada caso a hipótese nula de que não há diferença seja verdadeira Assim Um valorp baixo geralmente menor que 005 leva à rejeição da hipótese nula indicando que a diferença observada é estatisticamente significativa Um valorp alto sugere que não há evidência suficiente para afirmar que os grupos diferem significativamente No estudo conduzido por Zhang et al 2022 foram empregados testes de hipóteses para comparar diferentes grupos de clientes com base em atributos demográficos e comportamentais A análise estatística confirmou que as variações entre os grupos não eram aleatórias validando a importância dessas diferenças para a segmentação e consequentemente para a definição de estratégias de marketing mais direcionadas e personalizadas O uso criterioso de testes permitiu identificar quais variáveis mais influenciam o valor do tempo de vida do cliente LTV 55 e como diferentes perfis se comportam ao longo do ciclo de relacionamento com a empresa Adicionalmente Verhoeven et al 2023 empregaram essas análises em um contexto voltado à gestão de receitas avaliando a eficácia de diversas estratégias aplicadas a grupos distintos de clientes Os testes de hipóteses foram essenciais para verificar quais abordagens apresentaram diferenças significativas nos resultados obtidos evidenciando a utilidade desses testes na validação empírica das práticas adotadas na segmentação e no planejamento de campanhas personalizadas Os resultados reforçaram que estratégias baseadas em análises estatisticamente embasadas tendem a apresentar maior retorno e previsibilidade o que é vital para a tomada de decisões em ambientes competitivos 225 ANÁLISE DE CORRELAÇÃO ENTRE SEGMENTOS E VARIÁVEIS DE NEGÓCIOS A análise de correlação investiga as relações estatísticas entre os grupos de clientes e indicadores empresariais relevantes como receita frequência de compras ticket médio taxa de recompra e especialmente o Valor do Tempo de Vida do Cliente LTV Esse tipo de análise é fundamental para identificar quais segmentos contribuem mais significativamente para o desempenho do negócio possibilitando uma visão estratégica baseada em dados e não apenas em suposições A correlação é geralmente quantificada por coeficientes como o coeficiente de correlação de Pearson que mede a força e direção de uma relação linear entre duas variáveis Valores próximos de 1 indicam correlação positiva forte valores próximos de 1 indicam correlação negativa forte e valores próximos de 0 indicam ausência de relação linear significativa Essa métrica é essencial para avaliar o impacto potencial de diferentes segmentos nas variáveis de negócio guiando decisões como alocação de orçamento personalização de ofertas e definição de prioridades comerciais No estudo realizado por Zhang et al 2022 uma análise correlacional foi conduzida com o intuito de examinar a relação entre os grupos de clientes e o LTV revelando que determinados grupos apresentavam uma correlação mais expressiva com altos valores de LTV Isso permitiu à equipe identificar quais perfis de clientes mereciam maior atenção em termos de retenção e investimento em marketing reforçando a importância de priorizar segmentos com maior potencial de retorno financeiro A importância da análise de correlação na identificação de padrões e na compreensão do impacto dos diferentes segmentos nas variáveis de negócios é amplamente reconhecida na literatura de marketing e gestão Segundo Malhotra 2018 essa ferramenta estatística oferece aos gestores uma visão analítica sobre como as características dos segmentos de mercado se relacionam com indicadores de desempenho auxiliando na tomada de decisões estratégicas baseadas em evidências concretas Ao permitir a identificação de relações ocultas entre os perfis de clientes e os resultados da empresa a análise de correlação apoia o direcionamento mais preciso 55 56 de recursos e esforços para os grupos de clientes mais rentáveis engajados ou promissores Com isso as organizações conseguem otimizar campanhas melhorar a alocação de orçamento e aprimorar a performance de vendas marketing e atendimento garantindo que as decisões estejam alinhadas com o comportamento real do mercado 226 INTERPRETAÇÃO DOS RESULTADOS E INDICADORES A interpretação dos resultados constitui uma etapa crítica dentro do ciclo de desenvolvimento de modelos analíticos e preditivos especialmente no contexto da segmentação de clientes e previsão de métricas de valor como o Lifetime Value LTV Tratase da fase em que os resultados quantitativos obtidos ao longo do processo de modelagem são transformados em informações qualitativas compreensíveis e aplicáveis ao contexto organizacional com o objetivo de embasar decisões estratégicas fundamentadas em dados A eficácia de um modelo é comumente avaliada por meio de indicadores de desempenho como acurácia precisão recall e F1score os quais oferecem diferentes perspectivas sobre a qualidade das previsões A seleção e interpretação adequadas desses indicadores são essenciais para entender não apenas se o modelo funciona mas como e em que situações ele apresenta melhores desempenhos A acurácia por exemplo mede a proporção de previsões corretas entre todas as realizadas sendo uma métrica intuitiva e útil em contextos em que as classes estão balanceadas No entanto em situações com desbalanceamento de classes essa métrica pode mascarar o desempenho real do modelo A precisão indica a proporção de verdadeiros positivos entre todas as predições positivas feitas pelo modelo sendo especialmente relevante em cenários em que falsos positivos devem ser minimizados como em campanhas de retenção de clientes O recall ou sensibilidade mede a capacidade do modelo de identificar corretamente todos os casos positivos o que é crucial quando o custo de perder instâncias positivas como clientes de alto valor que estão prestes a churnar é elevado A pontuação F1 combina precisão e recall em uma média harmônica balanceando ambas as métricas em um único valor Essa medida é particularmente valiosa em contextos de classes desbalanceadas como frequentemente ocorre em análises de churn detecção de fraudes ou segmentações com grupos de baixa representatividade No estudo de Dahana et al 2019 por exemplo a interpretação dos resultados foi conduzida com base em uma análise integrada desses indicadores Os autores demonstraram que os modelos aplicados à segmentação de clientes e à estimativa do LTV apresentaram níveis elevados de F1score e recall evidenciando 57 sua robustez e confiabilidade especialmente no que diz respeito à capacidade de identificar clientes de alto valor potencial Essa abordagem reforça a importância de considerar múltiplas métricas para compreender os pontos fortes e limitações do modelo de maneira abrangente Além da análise técnica dos resultados a compreensão contextual dos achados é essencial para garantir que os insights gerados tenham aplicabilidade prática no ambiente de negócios Verbeke et al 2011 argumentam que a simples obtenção de métricas estatisticamente satisfatórias não garante a utilidade dos modelos sendo fundamental realizar uma interpretação aprofundada e orientada ao negócio Isso inclui compreender como os segmentos identificados se relacionam com as estratégias comerciais da empresa quais variáveis influenciam significativamente o comportamento dos clientes e quais ações podem ser derivadas diretamente das previsões realizadas como campanhas direcionadas melhorias no atendimento ou políticas de fidelização Dessa forma a etapa de interpretação atua como um elo entre a modelagem analítica e a ação gerencial transformando resultados técnicos em conhecimento aplicado que contribui efetivamente para a melhoria dos processos decisórios e para a maximização do valor gerado pela análise de dados 227 CAC e LTV O Valor do Tempo de Vida do Cliente LTV Customer Lifetime Value é uma métrica fundamental no contexto do marketing orientado por dados e da inteligência analítica Ele se refere ao total dos benefícios econômicos que uma empresa espera obter de todas as interações com um cliente ao longo de todo o seu ciclo de relacionamento com a marca Em outras palavras o LTV quantifica o valor financeiro futuro que um cliente representa para a organização considerando suas compras recorrentes fidelidade engajamento e possíveis indicações Essa definição é amplamente corroborada por diversos estudos recentes como os de Pollak 2021 Zhang et al 2022 Li et al 2022 Afiniti 2022 e Su et al 2023 os quais reforçam sua relevância como métrica estratégica para a sustentação e crescimento dos negócios em ambientes competitivos Nesse contexto a crescente complexidade do mercado aliada à constante evolução econômica e às rápidas transformações no comportamento dos consumidores tem acentuado a importância de as empresas construírem e manterem relacionamentos de longo prazo com seus clientes A fidelização deixou de ser apenas uma vantagem competitiva para se tornar um requisito essencial à sobrevivência e rentabilidade em setores dinâmicos Com isso a base para decisões operacionais e estratégicas passou a incluir o LTV como uma variável central uma vez que ele reflete o valor de longo prazo que cada cliente representa para o negócio indo além do lucro imediato de uma transação isolada Na prática empresas que compreendem o LTV conseguem segmentar seus clientes de forma mais inteligente personalizar ações de marketing com maior precisão e priorizar investimentos em públicos com maior retorno potencial Isso proporciona uma alocação mais eficiente de recursos aumento da rentabilidade por cliente e melhorias nas taxas de retenção Além disso o LTV permite avaliar o 57 58 retorno sobre o investimento ROI de campanhas de aquisição e relacionamento sustentando decisões mais precisas sobre quanto vale a pena investir para conquistar ou manter um determinado perfil de cliente Para uma gestão comercial e de inteligência de mercado eficaz o conhecimento aprofundado do LTV e do Custo de Aquisição de Cliente CAC é indispensável A análise conjunta dessas duas métricas possibilita a formulação de indicadoreschave de eficiência como a razão LTVCAC frequentemente utilizada para avaliar a sustentabilidade financeira das estratégias de crescimento Um valor de LTV consistentemente superior ao CAC indica que a empresa está gerando valor real com seus clientes ao longo do tempo enquanto o oposto sugere que a estratégia de aquisição pode estar consumindo mais recursos do que é viável Além disso a análise integrada do LTV com a segmentação de clientes permite não apenas a construção de proposições e conclusões robustas sobre o comportamento e valor dos diferentes perfis mas também a orientação da estratégia comercial e de relacionamento para a lucratividade otimizando o impacto financeiro de cada decisão Essa abordagem favorece o desenvolvimento de modelos preditivos e classificatórios que ajudam a identificar clientes de alto potencial ajustar canais de comunicação definir políticas de descontos e melhorar a eficiência de equipes comerciais e de marketing 2271 CAC CUSTOMER ACQUISITION COST O Custo de Aquisição de Clientes CAC é um indicadorchave que mede os gastos totais com marketing e vendas realizados com o objetivo de conquistar novos clientes Tratase portanto de uma estimativa do investimento médio necessário para converter um lead em cliente ativo incluindo ações diretas e indiretas que influenciam o processo de decisão do consumidor Como destacado por Wu et al 2023 o CAC tem papel central nas análises de desempenho comercial e sustentabilidade financeira de empresas orientadas por dados Na concepção de Burelli 2019 a maioria das empresas aloca uma parte significativa de sua receita nas áreas de marketing e vendas com a expectativa de retorno na forma de expansão de base de clientes e aumento de receita Nesse sentido é crucial que as organizações realizem uma análise detalhada sobre o montante investido em canais específicos como mídia paga inbound marketing feiras equipes comerciais entre outros e o número de clientes efetivamente captados por meio de cada um deles Essa análise é fundamental para identificar os canais mais eficientes e lucrativos otimizando os esforços comerciais e maximizando o retorno sobre investimento como também é ressaltado por Pollak 2021 Em conformidade com essa perspectiva Afiniti 2022 destaca que a aquisição de um novo cliente frequentemente requer um investimento inicial elevado que não se limita à comunicação e publicidade do produto ou serviço mas também envolve custos operacionais com equipes de vendas ferramentas de CRM estrutura de atendimento e treinamentos Esse esforço financeiro visa estruturar e escalar o negócio especialmente em mercados altamente competitivos ou em fases de 59 expansão acelerada Como resultado a aquisição de clientes pode representar uma das maiores despesas operacionais de uma organização podendo em cenários extremos ultrapassar 50 do faturamento bruto especialmente em startups ou empresas em estágio inicial Dada a materialidade do investimento em aquisição o acompanhamento rigoroso e contínuo do CAC tornase essencial para uma gestão orientada por indicadores Este KPI permite que líderes de vendas analistas de marketing e executivos de alto escalão como CEOs e CFOs tenham uma visão clara do crescimento atual do negócio e da viabilidade econômica desse crescimento no médio e longo prazo Ele ainda possibilita identificar gargalos desperdícios e oportunidades de melhoria nos processos comerciais e de comunicação Nessa perspectiva o cálculo do CAC pode ser representado pela seguinte fórmula CACCmv Nc Onde CAC é o Custo de Aquisição de Cliente Cmv é o custo total de marketing e vendas para a aquisição de clientes investimentos Nc é o número de novos clientes adquiridos Essa fórmula embora de aplicação conceitualmente simples exige cuidado na obtenção dos dados O desafio prático recai sobre a atribuição precisa dos investimentos aos canais corretos bem como a correta contabilização dos clientes originados em função desses gastos especialmente em contextos com múltiplos pontos de contato vendas indiretas ou ciclos longos de conversão É fundamental ressaltar que o CAC não inclui custos fixos de produção ou despesas administrativas tampouco investimentos em pesquisa e desenvolvimento suporte técnico jurídico ou financeiro Ele deve incluir exclusivamente os custos relacionados às áreas de vendas e marketing tais como salários de equipes comerciais mídia paga comissões plataformas de automação eventos e até mesmo custos incorridos com leads que não converteram em clientes já que fazem parte do custo médio de aquisição Assim para a sustentabilidade de um modelo de negócios o custo de aquisição de clientes não pode ser superior ao valor que esse cliente gera para a organização ao longo de seu relacionamento o Lifetime Value LTV Como enfatizado por Li et al 2022 a relação LTVCAC deve idealmente ser superior a 31 indicando que o valor gerado por um cliente supera amplamente o custo de aquisição garantindo rentabilidade e escalabilidade ao modelo comercial 59 60 2272 LTV LIFETIME VALUE O Lifetime Value LTV de um cliente conforme já abordado anteriormente seção 228 referese ao valor financeiro total que um cliente gera para a empresa ao longo de todo o seu relacionamento comercial com a marca Essa métrica é uma das mais relevantes dentro da lógica de marketing orientado a dados pois permite estimar o retorno esperado por cliente com base em projeções realistas do seu comportamento de compra ao longo do tempo Segundo Olnén 2022 o LTV pode ser entendido não apenas como uma estimativa de receita mas sim como o lucro médio líquido que o cliente proporciona durante o período analisado já descontados todos os custos associados ao seu ciclo de vida incluindo custos de aquisição retenção suporte e operação Essa abordagem contribui para uma visão mais precisa da rentabilidade de cada cliente permitindo decisões mais estratégicas sobre retenção segmentação e alocação de recursos de marketing Na prática o LTV pode ser definido como a receita líquida total esperada que a empresa obtém de um cliente individual durante todo o período em que este se mantém ativo descontados os custos variáveis incorridos para atender às suas demandas É portanto uma métrica preditiva que exige o uso de técnicas analíticas e projeções estatísticas mas que fornece insights valiosos para a sustentabilidade do modelo de negócio De acordo com a abordagem proposta por Zhang et al 2022 o cálculo do LTV deve considerar essencialmente três componentes principais a margem de contribuição a taxa de retenção e a taxa de desconto 1 Margem de Contribuição Rt Ct Representa a diferença entre a receita gerada pelo cliente em um determinado período t e os custos diretos associados ao seu atendimento como suporte entrega manutenção e comissão de vendas Essa margem reflete o valor real gerado em cada interação 2 Taxa de Retenção r Referese ao percentual de clientes que continuam ativos de um período para o outro Uma taxa de retenção elevada indica que o cliente tende a permanecer consumindo por mais tempo ampliando seu LTV Taxa de Desconto d Representa o custo de capital da empresa ou a taxa de retorno exigida para trazer os fluxos de caixa futuros a valor presente Isso permite considerar o valor do dinheiro no tempo ajustando o LTV para o contexto financeiro atual da organização A seguir na Figura 2 é apresentada a fórmula de valor presente líquido VPL adaptada para o cálculo do LTV LTV t1 n RtCt 1d t 61 endo LTV é o Valor Vitalício do Cliente Rt é a receita gerada pelo cliente no período t Ct são os custos totais associados ao cliente no período t incluindo custos de aquisição atendimento manutenção e outros custos operacionais d é a taxa de desconto que reflete o valor do dinheiro ao longo do tempo t é o período específico e n é o número total de períodos considerados no ciclo de vida do cliente Essa fórmula permite calcular o valor atual de todos os lucros futuros esperados do cliente incorporando as variáveis financeiras que afetam a sustentabilidade e o retorno do relacionamento Quanto maior o LTV maior o potencial estratégico do cliente justificando investimentos mais robustos em retenção personalização e fidelização Por fim é importante destacar que o LTV deve ser interpretado em conjunto com o CAC Custo de Aquisição de Clientes A relação LTVCAC é amplamente utilizada como indicador de eficiência sendo ideal que esse valor seja maior que 31 ou seja que o valor gerado pelo cliente seja ao menos três vezes superior ao custo necessário para adquirilo Esse equilíbrio é essencial para garantir crescimento escalável e sustentável da empresa 2273 LTV LIFETIME VALUE O Lifetime Value LTV de um cliente conforme já abordado anteriormente seção 228 referese ao valor financeiro total que um cliente gera para a empresa ao longo de todo o seu relacionamento com a marca Essa métrica projeta com base em dados históricos e estimativas futuras o montante líquido que a organização pode esperar obter de um cliente individual até o término do vínculo comercial Olnén 2022 complementa essa definição ao destacar que o LTV representa o lucro médio gerado pelo cliente no período analisado já considerando os custos variáveis associados ao seu ciclo de vida como atendimento suporte marketing de retenção e operação logística Isso reforça a importância de tratar o LTV não apenas como um indicativo de receita mas como uma medida direta de rentabilidade por cliente 61 62 De forma mais precisa o LTV pode ser definido como a receita líquida total esperada pela empresa ao longo de todo o tempo em que o cliente se mantiver ativo ou seja subtraídos os custos diretamente atribuíveis ao atendimento de suas necessidades Dessa maneira ele permite avaliar a viabilidade econômica de estratégias de aquisição fidelização e desenvolvimento de relacionamento com diferentes segmentos de clientes Segundo a abordagem proposta por Zhang et al 2022 o cálculo do LTV deve considerar essencialmente três fatores fundamentais 1 Margem de Contribuição corresponde à receita anual gerada pelo cliente descontadas as despesas operacionais diretas envolvidas em seu atendimento Reflete o lucro líquido obtido com o cliente em cada período 2 Taxa de Retenção Retention Rate representa o percentual de clientes que permanecem ativos de um período para o outro sendo crucial para estimar a duração média do relacionamento e por consequência o valor total gerado 3 Taxa de Desconto expressa o custo de capital da empresa ou o valor do dinheiro no tempo É aplicada para converter os fluxos de caixa futuros gerados pelo cliente em valor presente permitindo uma avaliação realista da rentabilidade futura Além da estimativa do valor monetário o tempo de vida do cliente Lifetime ou LTR Lifetime Retention também é uma variável importante A seguir é apresentada a fórmula para o cálculo do Lifespan L baseado na churn rate LTRL 1 C Onde L é o tempo de vida útil esperado do cliente em períodos como anos ou meses C é a Churn Rate ou taxa de evasão dos clientes no período A fórmula da taxa de churn é CP I Em que P representa o número de clientes perdidos no período I é o número de clientes ativos no início do período Substituindo essa expressão na fórmula do Lifespan temos 63 LTRL I P I Ou seja a fórmula final simplificada tornase LTRL I P Esse cálculo fornece uma estimativa direta da longevidade média dos clientes com base na proporção entre os clientes retidos e os perdidos Quanto menor a taxa de churn maior o tempo de vida do cliente refletindo um relacionamento mais estável e duradouro com maior potencial de geração de receita A partir da compreensão dessas fórmulas e dos conceitos de LTV e LTR verificase que o cálculo dessas métricas é fundamental para entender a viabilidade do negócio sua capacidade de gerar valor sustentável e sua eficiência na alocação de recursos em marketing e vendas Elas permitem antecipar retornos definir prioridades e orientar decisões estratégicas baseadas em dados Entretanto é importante ressaltar que nenhuma métrica quando analisada isoladamente é capaz de oferecer uma compreensão completa do cenário de negócios A análise conjunta do LTV do LTR e do CAC Custo de Aquisição de Clientes proporciona uma visão mais holística e acionável permitindo avaliar o equilíbrio entre aquisição retenção e rentabilidade Somente com essa perspectiva integrada é possível garantir a sustentabilidade e o crescimento saudável da base de clientes ao longo do tempo 23 SEGMENTAÇÃO DE CLIENTES B2B A segmentação de clientes no ambiente B2B BusinesstoBusiness constitui uma prática estratégica fundamental para organizações que almejam direcionar de forma mais eficaz seus recursos de marketing vendas e atendimento sobretudo em mercados de alta competitividade e com estruturas complexas de decisão Diferentemente do contexto B2C BusinesstoConsumer onde a segmentação costuma se basear em critérios demográficos psicográficos e comportamentais de consumidores individuais o B2B apresenta desafios adicionais exigindo abordagens multidimensionais e profundamente analíticas Essas abordagens precisam considerar entre outros fatores o potencial de lucratividade de cada cliente empresarial a previsibilidade do relacionamento a longo prazo o grau de alinhamento estratégico entre as soluções ofertadas e as necessidades do cliente 63 64 e indicadores quantitativos fundamentais como o Lifetime Value LTV e o Custo de Aquisição de Clientes CAC que oferecem uma visão financeira do relacionamento KOTLER KELLER 2016 A análise segmentada da base de clientes quando orientada por dados e fundamentada em modelos analíticos preditivos ou classificatórios permite identificar perfis empresariais com maior propensão a gerar retorno financeiro contínuo Essa abordagem baseada em dados favorece decisões como a priorização de esforços comerciais em contas de alto valor a personalização de ofertas de produtos preços ou serviços conforme as demandas do segmento e a reavaliação da alocação orçamentária em canais de marketing prospecção e suporte de modo a otimizar o uso dos recursos disponíveis O ambiente B2B é marcado por características específicas que aumentam sua complexidade ciclos de venda mais longos e imprevisíveis envolvimento de múltiplos tomadores de decisão ex áreas técnica financeira e jurídica negociações altamente personalizadas e por vezes consultivas contratos de valor elevado e prazos longos menor volume de transações mas com maior impacto unitário na receita Diante desse cenário adotar uma estratégia de segmentação robusta e baseada em valor não é apenas recomendável mas imperativo para o sucesso organizacional e a sustentabilidade das ações comerciais no médio e longo prazo De acordo com Kumar 2018 empresas que adotam práticas de segmentação baseadas no valor do cliente apresentam resultados superiores em rentabilidade e fidelização além de reduzirem significativamente os custos com aquisição e retenção reflexo direto da maior assertividade nas ações Ademais a segmentação possibilita a personalização das comunicações produtos serviços e propostas de valor adaptandoos às necessidades dores e objetivos específicos de cada grupo ou vertical de clientes Essa customização orientada por dados não apenas melhora a experiência do cliente Customer Experience CX como também impulsiona os índices de retenção e reduz a taxa de evasão churn Pollak 2021 demonstra que a eficácia de ações de marketing personalizadas pode ser ampliada em até 30 quando são apoiadas por modelos de segmentação baseados em dados históricos e comportamento preditivo destacando o papel da inteligência comercial na formulação de estratégias centradas no cliente Assim a segmentação no B2B transcende o papel de agrupamento estático de contas e se posiciona como uma ferramenta dinâmica de gestão estratégica capaz de transformar dados em conhecimento e conhecimento em vantagem competitiva sustentável 65 231 CRITÉRIOS RELEVANTES PARA SEGMENTAÇÃO B2B A literatura especializada identifica uma gama de critérios que podem ser utilizados no processo de segmentação B2B A escolha desses critérios depende em grande parte dos objetivos do negócio do tipo de produto ou serviço oferecido e do nível de maturidade analítica da empresa Os critérios podem ser agrupados em três grandes categorias financeiros comportamentais e estratégicos 2311 CRITÉRIOS FINANCEIROS A literatura especializada identifica uma gama abrangente de critérios que podem ser utilizados no processo de segmentação de clientes no contexto B2B BusinesstoBusiness A escolha desses critérios depende em grande parte dos objetivos estratégicos do negócio do tipo de produto ou serviço oferecido da dinâmica do mercado de atuação e do nível de maturidade analítica e tecnológica da empresa À medida que as organizações avançam em seus processos de transformação digital e coleta de dados tornase possível aplicar segmentações mais refinadas e orientadas por insights Esses critérios podem ser agrupados de forma geral em três grandes categorias 1 Critérios Financeiros Consideram variáveis quantitativas que indicam a rentabilidade risco e potencial econômico do cliente Exemplos incluem Faturamento anual da empresacliente Ticket médio das compras realizadas Custo de Aquisição de Cliente CAC Lifetime Value LTV Margem de contribuição Volume de compras recorrentes Esses indicadores permitem priorizar contas com maior retorno financeiro esperado e avaliar a viabilidade econômica de estratégias específicas para cada grupo 2 Critérios Comportamentais Avaliam como o cliente interage com a empresa seus hábitos de compra frequência de relacionamento e respostas a campanhas comerciais ou de marketing Incluem Histórico de interações com canais de vendas online ou presencial Participação em programas de fidelidade ou eventos corporativos Nível de engajamento com conteúdos digitais emails webinars e books Tempo médio entre as compras buying cycle Velocidade de resposta em negociações 65 66 Esses dados ajudam a identificar o nível de maturidade da conta seu potencial de crescimento e o tipo de abordagem comercial mais eficaz 3 Critérios Estratégicos Envolvem a adequação do cliente ao posicionamento da empresa e seu alinhamento com a proposta de valor visão de futuro ou até objetivos ESG Ambiental Social e Governança Exemplos Setor de atuação ex saúde varejo manufatura Modelo de negócio B2B B2C B2B2C etc Grau de sinergia tecnológica ou operacional com o portfólio atual Localização geográfica e potencial de expansão regional Potencial de parceria estratégica ou codesenvolvimento de soluções Esses critérios são fundamentais para selecionar contaschave key accounts definir nichos prioritários ou estruturar abordagens de vendas complexas como o AccountBased Marketing ABM A correta combinação entre essas dimensões permite que a segmentação B2B vá além da classificação superficial dos clientes promovendo uma visão mais holística e orientada a resultados Empresas que integram esses critérios de maneira sistemática conseguem priorizar oportunidades de maior valor otimizar a alocação de recursos comerciais e personalizar suas estratégias de relacionamento com maior precisão 2312CRITÉRIOS COMPORTAMENTAIS Os critérios comportamentais analisam o histórico de interação entre a empresa e seus clientes oferecendo insumos valiosos para a personalização de estratégias de marketing vendas e atendimento Ao contrário dos critérios puramente financeiros que focam na rentabilidade passada ou projetada os critérios comportamentais permitem avaliar o grau de engajamento maturidade e responsividade do cliente ao longo do tempo fornecendo uma visão mais rica sobre o relacionamento estabelecido com a organização Entre os principais exemplos de critérios comportamentais aplicáveis à segmentação B2B destacamse Frequência de compras e recorrência de pedidos identifica padrões de consumo regulares ou sazonais úteis para prever demandas e antecipar ofertas Tempo médio de relacionamento com a empresa mede a longevidade da parceria comercial o que pode estar correlacionado a confiança retenção e potencial de upselling Engajamento com canais de comunicação e suporte técnico avalia o envolvimento do cliente com emails chamadas reuniões abertura de chamados e uso de portais de autoatendimento Respostas a campanhas de marketing anteriores inclui taxas de abertura de emails cliques em links participação em eventos e conversões registradas em campanhas específicas DAHANA et al 2019 67 Esses dados são em geral extraídos de ferramentas integradas de gestão de relacionamento com o cliente CRM como Salesforce HubSpot ou Microsoft Dynamics bem como de plataformas de automação de marketing ex RD Station Mailchimp ActiveCampaign A análise conjunta dessas informações permite construir perfis de comportamento longitudinal com destaque para mudanças no padrão de consumo queda no engajamento ou sinais de churn iminente possibilitando ações preventivas Além disso esses critérios comportamentais conferem dinamismo à segmentação pois possibilitam que os segmentos evoluam com o tempo um conceito alinhado à segmentação preditiva e aos princípios de Customer Success Quando aplicados de forma consistente eles permitem à empresa desenvolver estratégias mais precisas e oportunas como campanhas de reativação de clientes inativos ofertas específicas baseadas em comportamento recente e até mesmo fluxos automatizados de nutrição e fidelização 2313 CRITÉRIOS ESTRATÉGICOS Os critérios estratégicos avaliam o potencial de um cliente para contribuir com o crescimento futuro da empresa fornecedora indo além da rentabilidade imediata e considerando aspectos como sinergia de longo prazo valor estratégico da parceria e possibilidade de coevolução comercial Diferenciamse dos critérios financeiros e comportamentais por enfatizarem a perspectiva de alinhamento estrutural e estratégico entre as partes especialmente relevante no contexto B2B onde as relações tendem a ser mais duradouras e complexas São exemplos típicos desses critérios Potencial de expansão da conta upsellcrosssell referese à capacidade de aumentar o volume de negócios com o cliente ao oferecer produtos complementares crosssell ou upgrades de soluções upsell ampliando o valor da conta ao longo do tempo Aderência aos produtos ou serviços ofertados mede o grau de compatibilidade entre as soluções da empresa fornecedora e as necessidades atuais e futuras da empresa cliente Sinergia cultural e estratégica entre as empresas considera afinidades em termos de valores corporativos estilo de gestão visão de futuro e práticas comerciais fatores que facilitam a construção de parcerias sólidas e duradouras Posicionamento da empresa cliente dentro de seu próprio mercado avalia se o cliente é líder referência ou inovador em seu segmento o que pode gerar efeitos indiretos positivos como credibilidade visibilidade e influência no setor KANCHANAPOOM CHONGWATPOL 2022 Esses critérios embora mais qualitativos por natureza podem e devem ser operacionalizados de forma sistemática a partir de escalas de avaliação interna checklists padronizados entrevistas com executivos da área comercial e painéis de 67 68 validação entre áreas técnicas e estratégicas Empresas mais maduras podem empregar métodos como análise multicritério AHPMCDA ou modelos de scoring ponderado para atribuir pesos a esses critérios e classificálos de forma consistente em sistemas de CRM ou plataformas de account planning Além disso os critérios estratégicos são frequentemente utilizados na definição de Key Accounts contaschave ABM AccountBased Marketing e planejamentos de parcerias estratégicas por permitirem identificar clientes que mesmo não sendo os mais rentáveis no curto prazo oferecem elevado potencial de valor estratégico e institucional para a empresa fornecedora seja pelo potencial de coinovação pela abertura de novos mercados ou pela influência que exercem no setor 232 TÉCNICAS QUANTITATIVAS PARA SEGMENTAÇÃO B2B Com a digitalização dos processos empresariais e o crescimento exponencial do volume e da variedade de dados disponíveis surgiram metodologias mais robustas escaláveis e automatizadas para a segmentação de clientes A incorporação de técnicas de ciência de dados e em especial de machine learning revolucionou a forma como as empresas identificam e compreendem seus públicos alvo permitindo o agrupamento de clientes com base em padrões ocultos que muitas vezes não são perceptíveis por métodos tradicionais ou análises univariadas Clusterização Técnicas de clusterização ou agrupamento não supervisionado são amplamente utilizadas na criação de segmentos homogêneos de clientes com base em similaridades de comportamento características transacionais ou atributos demográficos Entre os algoritmos mais populares destacamse Kmeans eficaz na formação de clusters com base na distância euclidiana entre variáveis previamente normalizadas sendo especialmente útil em bases de dados estruturadas com grande volume de observações Sua simplicidade e velocidade de execução o tornam adequado para aplicações em tempo real e dashboards interativos HAN KAMBER PEI 2011 DBSCAN DensityBased Spatial Clustering of Applications with Noise permite identificar clusters de forma flexível com base na densidade de pontos sendo eficaz na detecção de outliers e em situações em que os clusters não têm formato esférico Hierarchical Clustering constrói uma árvore de agrupamentos dendrograma útil para análises exploratórias especialmente quando o número ideal de clusters não é conhecido previamente Modelos Supervisionados Modelos de aprendizado supervisionado são indicados quando o objetivo é prever variáveis de interesse como LTV Lifetime Value churn evasão ou 69 propensão de compra Estes modelos aprendem com dados rotulados históricos e produzem classificações ou regressões com base em novos dados Destacamse Random Forest modelo baseado em árvores de decisão altamente robusto e interpretável adequado para previsão de churn e pontuação de clientes por risco Gradient Boosting Machines GBM XGBoost LightGBM técnicas poderosas que combinam vários modelos fracos para formar um preditor forte com excelente desempenho preditivo Redes Neurais Artificiais RNA recomendadas quando há uma alta complexidade nãolinear entre as variáveis sendo capazes de capturar padrões sofisticados especialmente em grandes bases Estudos como o de Bauer e Jannach 2021 evidenciam que o uso desses modelos supervisionados em estratégias de segmentação preditiva eleva significativamente a acurácia das decisões comerciais sobretudo em campanhas de retenção e recomendação Análise Fatorial A análise fatorial é uma técnica estatística que permite a redução da dimensionalidade de bases com muitas variáveis correlacionadas facilitando a interpretação dos dados e a identificação de fatores latentes que influenciam o comportamento dos clientes Por meio dela é possível agrupar variáveis que representam dimensões comuns como sensibilidade a preço grau de digitalização ou nível de interação com a marca A análise fatorial é especialmente útil em estudos de comportamento organizacional e pesquisas B2B com grande número de atributos qualitativos HAIR et al 2009 Processos KDD e CRISPDM Para garantir que a segmentação seja realizada de forma estruturada e alinhada aos objetivos organizacionais é recomendada a adoção de metodologias consolidadas de mineração de dados como KDD Knowledge Discovery in Databases define um processo sistemático que inclui seleção préprocessamento transformação mineração de dados e interpretação dos resultados FAYYAD et al 1996 CRISPDM Cross Industry Standard Process for Data Mining modelo de referência amplamente utilizado na indústria que organiza o processo de ciência de dados em seis fases interdependentes compreensão do negócio compreensão dos dados preparação dos dados modelagem avaliação e implantação A adoção desses modelos metodológicos assegura que o projeto de segmentação seja consistente replicável e orientado a resultados promovendo 69 70 integração entre áreas técnicas e de negócio e contribuindo para uma governança analítica mais madura 233 DESAFIOS ATUAIS E PERSPECTIVAS FUTURAS Embora as técnicas analíticas e ferramentas de modelagem estejam cada vez mais acessíveis e democratizadas a segmentação B2B ainda enfrenta obstáculos significativos que comprometem a eficácia dos modelos implementados e a escalabilidade das estratégias geradas a partir deles Entre os principais desafios destacamse Fragmentação dos dados entre diferentes sistemas legados ERP CRM BI que dificulta a obtenção de uma visão única e consolidada do cliente comprometendo a consistência das análises Baixa qualidade incompletude ou desatualização dos dados fatores que afetam diretamente os resultados da modelagem preditiva e aumentam o risco de viés e inferências incorretas Falta de integração entre as áreas de marketing vendas e tecnologia da informação o que impede a implantação eficaz de estratégias baseadas em dados e dificulta a governança analítica organizacional Mudanças rápidas no comportamento dos clientes especialmente em cenários de incerteza ou crise como observado durante e após a pandemia de COVID19 que exigem modelos mais ágeis adaptativos e sensíveis ao tempo LI et al 2022 Como resposta a esses desafios observase uma tendência crescente à adoção de sistemas de segmentação dinâmica baseados em inteligência artificial e análise em tempo real Essas soluções buscam substituir os modelos estáticos e rígidos por abordagens adaptativas que acompanham o ciclo de vida do cliente em tempo contínuo O uso de algoritmos de deep learning redes neurais convolucionais e técnicas de análise de sentimentos aplicadas a interações textuais como emails chats transcrições de reuniões virtuais e chamadas telefônicas tem possibilitado uma visão mais rica e preditiva da jornada do cliente B2B permitindo intervenções mais precisas e tempestivas SU et al 2023 HUANG RUST 2020 A evolução da segmentação de clientes no ambiente B2B acompanha essa transformação passouse de abordagens empíricas e intuitivas baseadas em julgamento de especialistas ou histórico comercial para modelos matematicamente fundamentados e orientados por dados com validação estatística e capacidade de generalização Nesse novo paradigma a utilização combinada de métricas financeiras como o LTV Lifetime Value e o CAC Custo de Aquisição de Clientes associada a algoritmos de machine learning supervisionados e não supervisionados 71 permite a construção de segmentos altamente eficazes na maximização do valor do cliente com benefícios diretos em rentabilidade fidelização e ROI de campanhas A abordagem datadriven portanto não apenas amplia o conhecimento sobre os clientes como também potencializa a personalização de ofertas a eficiência operacional e a competitividade das organizações Em vez de se basear em segmentações fixas ela permite modelos responsivos e continuamente atualizados ajustandose conforme os dados comportamentais contextuais e mercadológicos evoluem Dessa forma a compreensão aprofundada dos critérios de segmentação o domínio das técnicas de análise de dados e sobretudo a integração entre áreas estratégicas como marketing vendas TI e inteligência de mercado tornamse pilares fundamentais para o sucesso das estratégias comerciais no cenário B2B contemporâneo Esse alinhamento é indispensável para garantir que os insights gerados pela análise de dados se traduzam em ações efetivas e orientadas a resultados Estudos futuros devem considerar entre outras vertentes promissoras a evolução dos modelos de inteligência artificial generativa com potencial para criar perfis sintéticos simular jornadas de clientes e gerar conteúdos personalizados em escala bem como a integração de dados não estruturados como voz texto livre imagens e vídeos nos modelos preditivos de valor e comportamento Essa integração representa um novo patamar de sofisticação analítica com impacto direto na assertividade automação e personalização da segmentação B2B 3 TRABALHOS CORRELATOS A segmentação de clientes e a gestão do valor que cada cliente representa ao longo do tempo constituem temas fundamentais na literatura contemporânea de marketing estratégico e gestão de relacionamento Tais práticas estão associadas à necessidade de alocar recursos de forma eficiente em um contexto de mercados saturados competitivos e cada vez mais orientados por dados Nesse cenário Kotler e Keller 2006 defendem que uma empresa não deve buscar satisfazer indiscriminadamente todos os consumidores mas sim concentrar seus esforços naqueles que demonstram maior potencial de retorno financeiro Segundo os autores um cliente lucrativo é definido como uma pessoa família ou empresa cujas receitas ao longo da vida excedem em um valor aceitável os custos da empresa para atrair vender e atender esse cliente A partir dessa concepção emerge o conceito de Lifetime Value LTV ou Valor do Tempo de Vida do Cliente como métricachave para orientar decisões estratégicas relacionadas à aquisição retenção e expansão do relacionamento com clientes O LTV possibilita mensurar o valor econômico de longo prazo gerado por cada cliente funcionando como um norteador para decisões mais inteligentes sobre quais perfis merecem investimento continuado e quais podem ser gradualmente despriorizados Nesse sentido a capacidade de identificar prever e gerenciar clientes de alto valor representa atualmente um dos pilares centrais das estratégias empresariais orientadas à performance e à fidelização sustentável O LTV tem se consolidado como uma métrica central não apenas para o planejamento de ações comerciais e 71 72 de marketing mas também como critério para segmentação preditiva orçamentação estratégica alocação de recursos multicanal e projeção de retorno sobre investimento ROI A sua importância crescente é amplamente respaldada por uma série de estudos contemporâneos como os de Pollak 2021 Zhang et al 2022 Li et al 2022 Afiniti 2022 e Su et al 2023 Esses autores demonstram que o LTV sintetiza de forma integrada os benefícios econômicos gerados pelas interações de um cliente com a organização ao longo de todo o seu ciclo de vida permitindo que as empresas tomem decisões mais assertivas tanto no nível operacional quanto no nível tático e estratégico Em ambientes digitais e omnichannel onde o comportamento do consumidor é volátil e altamente distribuído a modelagem do LTV tornase ainda mais crítica para antecipar churn identificar oportunidades de upsell e definir prioridades de atendimento Nesse contexto Kanchanapoom e Chongwatpol 2022 propõem um modelo de segmentação orientado por LTV aplicado ao setor de medicina complementar e alternativa um mercado caracterizado por forte ênfase em relacionamentos de longo prazo e confiança gradual do cliente Os autores dividem os clientes em quatro grupos distintos combinando critérios de valor e lealdade à marca O modelo tem como objetivo identificar segmentos de maior potencial futuro servindo como instrumento preditivo para nortear decisões comerciais e de marketing A classificação permite que a empresa adapte sua estratégia com base na posição do cliente no quadrante i clientes de alto valor e alta lealdade para os quais é recomendada a preservação e fortalecimento do vínculo existente ii clientes de alto valor mas com baixa lealdade cujo foco deve ser o fortalecimento da fidelização iii clientes de baixo valor com alta lealdade nos quais se deve buscar maximização de retorno com posterior descontinuação se necessário e iv clientes de baixo valor e baixa lealdade para os quais é recomendável a desvinculação progressiva Essa abordagem permite a alocação de recursos conforme o retorno potencial previsto reforçando a importância de estratégias direcionadas personalizadas e sustentáveis de relacionamento com o cliente Figura 11 Proposta de segmentação de clientes baseado no valor ao longo da sua vida e na sua lealdade à marca 73 Fonte Adaptado pelo autor O estudo de Afiniti 2022 reforça a centralidade do LTV na tomada de decisões gerenciais especialmente em setores com modelos contratuais de relacionamento com clientes Os autores argumentam que uma estimativa acurada do valor vitalício do cliente é essencial para o alinhamento entre investimentos em aquisição e o retorno financeiro projetado ao longo do tempo Para esse fim propõem um modelo flexível de riscos proporcionais que permite incorporar a probabilidade de churn evasão como variávelchave no cálculo do LTV A abordagem parte do pressuposto de que a organização possui um modelo de churn minimamente calibrado cuja integração à modelagem de LTV permite calcular com maior precisão o tempo esperado de permanência de um cliente ponderando esse tempo pelos lucros esperados em cada período Isso torna o modelo particularmente adequado para ambientes com relações contratuais explícitas como telecomunicações seguros ou assinaturas de serviços digitais onde os fluxos de receita são previsíveis mas dependem criticamente da retenção de clientes Complementarmente Su et al 2023 enfrentam um dos principais desafios relacionados à modelagem do LTV em ambientes não contratuais e altamente dinâmicos como plataformas de publicidade online Nesses contextos os dados de consumo por usuário tendem a ser escassos fragmentados ou inconsistentes dentro de um único domínio de análise Como alternativa os autores propõem uma estrutura adaptativa entre domínios denominada CDAF CrossDomain Adaptive Framework que permite a transferência de aprendizado de um domínio com dados abundantes por exemplo uma plataforma digital consolidada para outro domínio com dados mais limitados como uma plataforma emergente O método proposto busca mitigar dois problemas simultâneos i a escassez de dados históricos de consumo e ii o desalinhamento estatístico entre os domínios fonte e alvo Para isso a CDAF adota uma arquitetura que aprende padrões gerais de LTV em plataformas relacionadas preservando a generalização e ajustando as distribuições para o novo domínio Essa estratégia permite realizar predições mais robustas 73 74 mesmo em ambientes onde a informação direta sobre o comportamento dos usuários ainda está em formação destacandose como um exemplo promissor de transferência de aprendizado transfer learning no campo de modelagem de valor de cliente Na mesma linha de enfrentamento das limitações dos modelos tradicionais Zhang et al 2022 destacam que o LTV ao mensurar a contribuição econômica de longo prazo de clientes ao longo de relacionamentos contínuos com produtos ou serviços pode fornecer insumos decisivos para a definição de estratégias de entrega de valor No entanto os autores argumentam que as abordagens atuais enfrentam dois entraves significativos por um lado a incapacidade de modelar adequadamente relações temporais e não lineares por outro a ausência de soluções computacionalmente viáveis para grandes volumes de dados Em resposta Zhang e colaboradores propõem um modelo geral de LTV que supera a fragmentação das abordagens anteriores ao integrar aspectos de longo prazo em vez de se limitar a estimativas baseadas em cliques ou compras recentes Para alcançar esse objetivo os autores implementam uma solução de programação dinâmica rápida baseada em um método de bisseção mutado e na hipótese de experimentação sem memória o que permite acelerar o processo de otimização dos parâmetros envolvidos na projeção do LTV Essa proposta se mostra particularmente eficaz para aplicações em ambientes digitais e plataformas de serviços contínuos onde o comportamento do cliente é complexo e a avaliação de seu valor futuro exige uma abordagem preditiva mais sofisticada e adaptável Pollak 2021 explora um dos principais desafios enfrentados pelas empresas ao prever o Lifetime Value LTV de clientes em contextos não contratuais nos quais a relação com o consumidor é descontinuada ou intermitente Nesse tipo de ambiente onde não há garantias explícitas de continuidade da relação comercial a estimativa do valor vitalício do cliente tornase dependente essencialmente de padrões históricos de compra Com isso a previsão exige um modelo que consiga inferir comportamentos futuros a partir de dados passados O autor realiza uma comparação entre dois métodos o primeiro baseado no modelo estatístico conhecido como compre até morrer BuyTillYouDie Model que utiliza dados transacionais anteriores para modelar a propensão de recompra até a morte do cliente ie inatividade o segundo uma rede neural artificial aplicada ao mesmo conjunto de dados A análise realizada oferece resultados quantitativos e qualitativos que comparam a precisão a robustez e a aplicabilidade prática de ambas as abordagens Como conclusão Pollak propõe diretrizes práticas para que gestores de marketing escolham o modelo mais adequado a depender do tipo de dado disponível da complexidade do domínio e do objetivo estratégico da organização Em complemento Bauer e Jannach 2021 propõem um conjunto de técnicas baseadas em inteligência artificial que visam elevar a precisão das previsões de LTV em contextos altamente dinâmicos como o comércio eletrônico e plataformas digitais Dentre as inovações destacadas encontrase o uso de redes neurais recorrentes RNNs capazes de capturar dependências temporais nas interações entre clientes e produtos o que permite uma modelagem mais realista do comportamento sequencial de compra Além disso os autores empregam modelos de atenção attention models que aumentam a capacidade da rede em focar 75 seletivamente em eventos relevantes da sequência de interação melhorando a capacidade preditiva Para lidar com a qualidade variável dos dados é sugerido um préprocessamento avançado que inclui tratamento de valores ausentes normalização e codificação apropriada de variáveis categóricas Um dos diferenciais do estudo é a introdução de modelos Seq2Seq SequencetoSequence comumente utilizados em tarefas como tradução automática mas aqui aplicados para mapear a sequência completa de interações clienteproduto ao longo do tempo Por fim Bauer e Jannach propõem uma arquitetura híbrida combinando modelos baseados em características featurebased com modelos sequenciais de modo a explorar as vantagens de ambas as abordagens mitigando as limitações associadas a soluções isoladas Essa proposta representa um avanço no campo da modelagem preditiva especialmente no que diz respeito à complexidade comportamental dos consumidores digitais No mesmo escopo Li et al 2022 enfrentam o desafio da previsão do LTV em ambientes de altíssima escala como plataformas digitais com bilhões de usuários Nesse cenário a modelagem tradicional tornase inviável devido à diversidade de perfis de usuários à alta variabilidade dos dados e à necessidade de predições em tempo real A solução proposta pelos autores foi aplicada em uma empresa de tecnologia chinesa de grande porte utilizando um arcabouço robusto de ciência de dados e aprendizado de máquina que inclui algoritmos de previsão baseados em séries temporais machine learning supervisionado processamento em tempo real e inteligência artificial adaptativa A proposta se destaca pela capacidade de processar grandes volumes de dados de forma eficiente e responsiva permitindo que as predições de LTV sejam atualizadas dinamicamente conforme o comportamento do usuário evolui Essa abordagem demonstra que além da sofisticação algorítmica é imprescindível escalabilidade e integração com sistemas operacionais de negócio para garantir que as previsões de valor de cliente possam ser utilizadas de forma prática ágil e alinhada às necessidades de mercado Olnén 2022 destaca que a precisão na estimativa do Lifetime Value LTV é um fator determinante para organizações que desejam otimizar suas estratégias de relacionamento com o cliente e ao mesmo tempo maximizar a rentabilidade no longo prazo Para alcançar esse objetivo o autor emprega técnicas avançadas de aprendizado de máquina com ênfase em redes neurais profundas deep learning que se mostram particularmente eficazes na captura das complexidades e nuances comportamentais dos consumidores Esses modelos computacionais têm a capacidade de aprender a partir de grandes volumes de dados históricos padrões sutis em variáveis como frequência de compras valor transacional médio e nível de engajamento com os serviços prestados permitindo uma previsão mais acurada do valor futuro de cada cliente Ainda segundo Olnén 2022 uma compreensão aprofundada do LTV previsto capacita as empresas não apenas a avaliar o retorno sobre o investimento ROI em campanhas de marketing mas também a tomar decisões estratégicas quanto ao valor de mercado da própria empresa especialmente em contextos de aquisição fusão ou abertura de capital Além disso ao classificar os clientes com base em seu LTV estimado os profissionais de marketing podem realocar de forma mais eficiente os recursos destinados à aquisição retenção ou estratégias de upsell e crosssell O autor também chama atenção para uma característica estatística 75 76 frequentemente presente nas distribuições de LTV a cauda pesada isto é a presença de poucos clientes que geram valores muito elevados contrastando com a maioria que gera menor retorno Diante disso o desempenho dos modelos preditivos é avaliado a partir de dois critérios principais discriminação que verifica a capacidade de distinguir entre clientes de alto e baixo valor e calibração que mede a proximidade entre os valores previstos e os valores reais observados Contudo o processo de ponderação entre essas métricas segundo Olnén é oneroso e sujeito a vieses dado que exige análise manual Com base nos experimentos relatados o autor infere que a discriminação tende a receber 19 vezes mais peso que a calibração durante a avaliação dos modelos indicando uma priorização prática da capacidade de segmentação sobre a exatidão absoluta das previsões O autor também observa que há uma lacuna na literatura quanto ao efeito do aumento do horizonte temporal de dados históricos sobre a precisão preditiva dos modelos o que sugere um campo promissor para futuras investigações No mesmo escopo de aplicação ao varejo digital Jasek et al 2019 argumentam que a escolha de um modelo LTV apropriado é uma etapa crucial para empresas que buscam implementar uma abordagem gerencial baseada em valor do cliente em suas plataformas de ecommerce B2C O contexto do varejo online impõe pressupostos e desafios específicos como a natureza não contratual do relacionamento com os clientes a recorrência imprevisível das compras e a variabilidade no comportamento de consumo ao longo do tempo Os autores conduzem uma análise comparativa entre onze diferentes modelos probabilísticos de previsão de LTV avaliando tanto o desempenho estatístico quanto a capacidade preditiva em cenários reais de comércio eletrônico Os resultados obtidos evidenciam que embora existam diversas abordagens teóricas para a previsão do LTV alguns modelos são claramente superiores quando aplicados a ambientes de alta complexidade e dinamismo como o varejo digital A pesquisa reforça assim a necessidade de adequação contextual na escolha do modelo tendo em vista as características operacionais do negócio os tipos de dados disponíveis e os objetivos estratégicos da organização Em última análise o estudo de Jasek et al ressalta que o entendimento profundo do valor do cliente é essencial para sustentar decisões comerciais assertivas promover a eficiência operacional e garantir vantagem competitiva sustentável no ambiente digital contemporâneo Win e Bo 2020 enfatizam que a segmentação de clientes com base no Lifetime Value LTV configura uma prática essencial no marketing contemporâneo especialmente em ambientes digitais competitivos Ao possibilitar a identificação e a priorização de grupos de clientes segundo seu valor financeiro estimado ao longo do tempo essa abordagem permite que as empresas otimizem seus investimentos em aquisição retenção e fidelização Os autores aplicam o algoritmo Random Forest um modelo de aprendizado de máquina supervisionado com o objetivo de prever a classe de LTV dos clientes em um horizonte de um ano Os resultados obtidos demonstram que esse tipo de técnica é eficaz para orientar decisões estratégicas em Customer Relationship Management CRM permitindo que o varejista direcione seus recursos para clientes com maior potencial de retorno aumentando a eficiência operacional e maximizando o valor agregado O estudo reforça assim a viabilidade e a aplicabilidade prática de métodos preditivos baseados em machine learning na formulação de estratégias de marketing no contexto digital 77 Na mesma direção Dahana et al 2019 abordam o LTV como uma métrica crítica para a construção de estratégias de marketing eficazes especialmente em setores de rápida transformação como o varejo de moda online Em sua proposta metodológica os autores desenvolvem um modelo de classe latente que considera a frequência de compra a duração do ciclo de vida do cliente e o valor médio das transações como variáveis determinantes para inferir o LTV em diferentes segmentos de mercado O estudo introduz uma dimensão inovadora ao incorporar padrões de estilo de vida como variável explicativa para a heterogeneidade do LTV entre segmentos demonstrando que fatores comportamentais e psicográficos podem ter impacto substancial sobre o valor de longo prazo gerado pelos clientes Ao aplicar o modelo a um conjunto de dados reais de transações e perfis comportamentais de consumidores em uma plataforma de moda os autores demonstram a capacidade preditiva do modelo proposto ampliando as possibilidades de segmentação inteligente e customização de campanhas de marketing De forma complementar os próprios autores definem o LTV como o valor total esperado que a empresa pode obter de um único cliente ao longo de toda a duração do relacionamento considerando receita líquida e custos variáveis associados ao atendimento desse cliente o que alinha a métrica tanto à visão financeira quanto à perspectiva estratégica da organização No contexto da indústria de jogos digitais Burelli 2019 oferece uma contribuição relevante ao destacar os desafios e oportunidades na modelagem preditiva do comportamento dos jogadores especialmente em modelos de negócios orientados a serviços como os jogos FreetoPlay F2P Nesse tipo de modelo a ausência de barreiras iniciais de pagamento e a grande variação no comportamento de engajamento e de gastos tornam a previsão de receitas futuras altamente complexa O autor argumenta que diante dessa volatilidade tornase essencial dispor de modelos preditivos robustos capazes de fornecer suporte às decisões relacionadas à aquisição de usuários personalização de experiências ingame e otimização de recursos de desenvolvimento e operação O artigo ressalta que para que estratégias eficazes sejam implementadas é necessário entender não apenas as escolhas passadas dos jogadores mas também antecipar possíveis trajetórias futuras de comportamento utilizando dados históricos e técnicas avançadas de data science e aprendizado de máquina Nesse sentido a modelagem do LTV em jogos digitais não apenas amplia o entendimento sobre a economia do jogador mas também possibilita a definição de estratégias mais sustentáveis e orientadas por dados para monetização e retenção Wu et al 2023 exploram os desafios da previsão do Lifetime Value LTV em contextos onde a escassez de eventos de consumo e a alta variabilidade dos dados impõem barreiras significativas à precisão das estimativas Essa realidade é especialmente comum em aplicativos centrados no cliente nos quais a interação pode ser esporádica e os dados disponíveis são ruidosos ou incompletos Os autores criticam os métodos tradicionais que treinam preditores de LTV com base em uma única visão dos dados argumentando que essa abordagem tende a extrair conhecimento de forma limitada e potencialmente enviesada Para superar tais limitações propuseram uma estrutura de multivisualização contrastiva projetada 77 78 como uma solução plugandplay PnP compatível com diferentes arquiteturas de modelos backbones Essa estrutura integra múltiplos regressores de LTV heterogêneos que trazem conhecimentos complementares resultando em maior robustez e precisão na estimativa do valor do cliente Além disso a utilização do aprendizado contrastivo permite capturar relações latentes entre amostras semelhantes mitigando a dependência da abundância de dados rotulados e reforçando a capacidade do modelo em generalizar padrões úteis No mesmo eixo de inovação metodológica Wang et al 2019 propõem uma abordagem estatística para a modelagem do LTV que leva em consideração tanto a probabilidade de churn rotatividade quanto a distribuição assimétrica dos dados de valor frequentemente observada em mercados com clientes de alto e baixo valor extremo A proposta metodológica baseiase em uma mistura entre massa de ponto zero e distribuição lognormal resultando na chamada distribuição lognormal inflada de zero ZILN Tal modelagem é especialmente eficaz para capturar a natureza de cauda pesada dos dados de LTV ao mesmo tempo em que quantifica a incerteza nas previsões pontuais o que é fundamental para a tomada de decisões estratégicas sob risco Os autores validam o modelo tanto em modelos lineares tradicionais quanto em redes neurais profundas DNNs evidenciando sua flexibilidade e adaptabilidade a diferentes contextos de aplicação Para avaliação da performance preditiva são utilizados o coeficiente de Gini normalizado que mede a capacidade discriminativa do modelo e gráficos de decil que avaliam a calibração das previsões Os resultados empíricos obtidos a partir de dois conjuntos de dados reais demonstram a eficácia do modelo ZILN para diferentes aplicações comerciais e níveis de granularidade nos dados Por fim Cao et al 2023 abordam a previsão do comportamento do consumidor e sua interseção com a otimização de sortimento ampliando a aplicação de modelos preditivos de valor para além da estimativa do LTV Os autores investigam a escolha do cliente a partir de uma mistura de modelos de demanda que combina a demanda independente com o modelo de logit multinomial refletindo a realidade de mercados nos quais diferentes segmentos de clientes seguem padrões de decisão distintos Nesse contexto cada produto do portfólio possui uma receita esperada associada e o objetivo do modelo é encontrar o sortimento ótimo ou seja a combinação de produtos que maximiza a receita esperada de um cliente A proposta metodológica mostra que esse problema pode ser resolvido de forma eficiente por meio da formulação e resolução de um programa linear tornando a abordagem viável do ponto de vista computacional Um dos principais achados do estudo é que o tamanho ideal do sortimento cresce proporcionalmente ao tamanho relativo do segmento de clientes que se comporta conforme o modelo de demanda independente implicando que diferentes perfis de comportamento exigem estratégias diferenciadas de oferta de produtos para a maximização de valor 4 METODOLOGIA 41 TIPO DE PESQUISA Este trabalho propõe o desenvolvimento de uma metodologia prática de segmentação de clientes no contexto B2B com especial ênfase em empresas que 79 atuam no setor de serviços de cobrança embora seus princípios e técnicas sejam igualmente aplicáveis a outros setores intensivos em relacionamento com clientes como tecnologia consultoria engenharia e indústria de base A base conceitual da proposta está ancorada na clássica visão de Kotler e Keller 2012 segundo a qual a segmentação é um dos pilares fundamentais para a efetividade das estratégias de marketing Para os autores o conhecimento aprofundado do perfil dos clientes e sua organização em grupos coerentes permite a alocação mais racional de recursos a personalização de ofertas e a maximização do retorno sobre os investimentos em vendas e relacionamento A metodologia sugerida fundamentase em técnicas de análise de dados e algoritmos de clusterização com o objetivo de agrupar os clientes conforme variáveis quantitativas e qualitativas como nível de faturamento porte organizacional número de funcionários tempo de relacionamento com a empresa e indicadores de performance Essa abordagem se alinha às etapas do processo de Knowledge Discovery in Databases KDD descrito por Fayyad et al 1996 cuja proposta é transformar grandes volumes de dados brutos em conhecimento aplicável e estratégico por meio de etapas sistemáticas que envolvem seleção pré processamento transformação mineração e interpretação dos dados A utilização da clusterização como técnica de segmentação permite que se identifiquem padrões ocultos no comportamento dos clientes fornecendo à equipe comercial subsídios para tomada de decisão mais precisa quanto às estratégias de abordagem retenção e reativação de clientes Tal como sugerem Tan Steinbach e Kumar 2019 a identificação de agrupamentos homogêneos a partir de dados históricos melhora substancialmente a capacidade preditiva das ações comerciais permitindo um direcionamento mais assertivo dos recursos e maior aderência entre o perfil do cliente e a proposta de valor da empresa Com isso a proposta metodológica contribui para otimizar indicadores centrais da gestão comercial como a redução do Custo de Aquisição de Clientes CAC e o aumento do Lifetime Value LTV compreendido como o valor total gerado por um cliente ao longo do seu ciclo de vida com a empresa KOTLER KELLER 2012 OLIVEIRA 2018 Dessa forma a segmentação baseada em dados reais ancorada no ciclo do KDD não apenas confere maior objetividade ao processo de gestão de clientes como também reforça a cultura datadriven na tomada de decisões estratégicas Ao final do processo a pesquisa evidencia como o uso de algoritmos de agrupamento pode representar uma poderosa ferramenta de apoio à gestão comercial e à inteligência de mercado com impactos diretos sobre a rentabilidade a fidelização de clientes e o posicionamento competitivo da organização no ambiente B2B 42 PROCEDIMENTOS METODOLÓGICOS A metodologia proposta neste trabalho está fundamentada no processo de Descoberta de Conhecimento em Bases de Dados Knowledge Discovery in Databases KDD estruturado de maneira sequencial iterativa e orientada à extração de conhecimento útil a partir de grandes volumes de dados O KDD será operacionalizado por meio de sete etapas interligadas seleção préprocessamento 79 80 transformação mineração de dados avaliação interpretação e aplicação dos resultados no contexto de segmentação de clientes B2B A primeira etapa de seleção e coleta dos dados contempla a utilização de bases secundárias públicas e acessíveis contendo informações cadastrais e financeiras de empresas brasileiras que atuam em relações comerciais do tipo businesstobusiness B2B Os critérios para inclusão dos dados baseiamse em atributos relevantes para análise de rentabilidade e relacionamento comercial tais como faturamento anual número de funcionários tempo de operação no mercado e histórico de inadimplência Na etapa seguinte realizase o tratamento e préprocessamento dos dados essencial para garantir a qualidade e a integridade da base a ser analisada Serão aplicadas técnicas como identificação e remoção de ruídos inconsistências e valores ausentes com o apoio de métodos de imputação estatística e exclusão criteriosa de registros inválidos A normalização das variáveis será feita por meio de escalonamento MinMax e padronização por ZScore assegurando homogeneidade nas escalas numéricas Adicionalmente outliers serão detectados e tratados com base na análise gráfica de boxplots e nos limites estatísticos da amplitude interquartil IQR de forma a garantir a robustez dos modelos subsequentes Posteriormente será realizada a transformação e redução de dimensionalidade com o objetivo de condensar as variáveis mais relevantes e eliminar redundâncias sem perda significativa de informação Serão aplicadas técnicas como Análise Fatorial Exploratória AFE e Análise de Componentes Principais PCA que permitem extrair fatores latentes e otimizar a performance computacional dos algoritmos empregados nas etapas posteriores A segmentação dos clientes será conduzida por meio da técnica de clusterização não supervisionada Kmeans escolhida por sua eficiência computacional e simplicidade interpretativa A definição do número ideal de clusters será realizada com base em critérios objetivos como o Método do Cotovelo Elbow Method e a Pontuação de Silhueta Silhouette Score de modo a garantir a formação de grupos internamente homogêneos e externamente distintos A segmentação resultante permitirá a identificação de perfis comerciais com similaridades estruturais facilitando a definição de estratégias personalizadas Na sequência serão aplicados modelos de classificação e predição com o intuito de estimar o Lifetime Value LTV e a probabilidade de churn de cada cliente Para isso serão empregados algoritmos supervisionados como Árvores de Decisão Random Forest Redes Neurais Artificiais e Algoritmos Genéticos do tipo AntMiner A escolha dessas técnicas justificase por sua capacidade de capturar padrões complexos mesmo em contextos com alta dimensionalidade além de apresentarem boa interpretabilidade e desempenho preditivo comprovado na literatura A validação dos segmentos formados será realizada com base em métricas quantitativas e qualitativas Avaliarseá a pureza interna dos clusters isto é a proporção de membros que compartilham características predominantes bem como a diferenciação externa entre os grupos por meio da distância euclidiana entre os 81 centroides e de testes estatísticos como ANOVA e Testes T Além disso será conduzida uma análise de correlação entre os segmentos formados e indicadores de negócio relevantes como LTV Custo de Aquisição de Clientes CAC e taxa de churn Por fim a etapa de interpretação dos resultados buscará traduzir os achados analíticos em insumos estratégicos para a gestão comercial A partir da caracterização dos segmentos será possível propor ações de relacionamento prioritárias otimizar a alocação de recursos de marketing e estruturar campanhas de retenção ou prospecção considerando o potencial de rentabilidade e o risco associado a cada grupo de clientes Assim esperase demonstrar como uma abordagem orientada por dados pode impulsionar a eficiência e a eficácia das estratégias de segmentação no contexto B2B 43 FERRAMENTAS E SOFTWARES As etapas de processamento análise e modelagem dos dados serão implementadas por meio da linguagem de programação Python amplamente adotada em projetos de ciência de dados devido à sua versatilidade robustez e vasta gama de bibliotecas especializadas A manipulação de dados tabulares e estruturas matriciais será realizada com o suporte das bibliotecas Pandas e NumPy permitindo uma organização eficiente dos dados e facilitando operações estatísticas agregações e transformações Para a identificação e visualização de valores ausentes será utilizada a biblioteca Missingno que oferece representações gráficas intuitivas para apoiar decisões sobre imputações ou exclusões Na etapa de modelagem preditiva e segmentação o framework Scikitlearn desempenhará papel central sendo responsável pela aplicação de algoritmos de clusterização como Kmeans classificação supervisionada como Random Forest e Árvores de Decisão além de ferramentas de préprocessamento normalização escalonamento e codificação e validação cruzada de modelos Para a redução de dimensionalidade e análise fatorial será empregada a biblioteca FactorAnalyzer que permite a extração de componentes principais e a avaliação da adequação das variáveis aos fatores latentes A visualização gráfica dos resultados será conduzida com o auxílio das bibliotecas Matplotlib e Seaborn que oferecem recursos avançados para gerar gráficos de dispersão boxplots mapas de calor histogramas e outras representações úteis para análise exploratória e apresentação dos achados Por fim a modelagem preditiva baseada em algoritmos genéticos será realizada por meio do AntMiner técnica que integra princípios de inteligência coletiva e evolução computacional proporcionando classificações interpretáveis e eficazes especialmente em cenários de regras de decisão complexas 44 LIMITAÇÕES METODOLÓGICAS O presente estudo apresenta algumas limitações que devem ser consideradas na interpretação e generalização dos resultados A principal restrição está relacionada à natureza secundária dos dados utilizados os quais apesar de representativos podem não abranger com exatidão todas as particularidades do 81 82 mercado em análise Essa limitação compromete em certa medida a profundidade da inferência sobre comportamentos específicos ou dinâmicas emergentes em determinados nichos Além disso a aplicabilidade prática dos resultados obtidos está condicionada à relativa estabilidade dos padrões históricos de comportamento das empresas o que pode ser impactado por mudanças econômicas variações setoriais ou transformações estruturais nas estratégias de consumo e relacionamento entre empresas Outro fator que merece destaque é a complexidade interpretativa de alguns modelos analíticos empregados como as redes neurais artificiais cuja natureza de caixapreta pode dificultar a explicação dos critérios de segmentação para gestores não técnicos Essa característica pode gerar resistência organizacional à adoção de abordagens baseadas em ciência de dados especialmente em ambientes empresariais mais tradicionais nos quais a tomada de decisão ainda se baseia fortemente em heurísticas e experiências acumuladas A base de dados utilizada na pesquisa é denominada baseleadsokxlsx a qual contém registros reais de empresas que mantêm ou mantiveram algum tipo de relação comercial com uma prestadora de serviços de cobrança Conforme argumentam Han Kamber e Pei 2012 a qualidade consistência e relevância dos dados de entrada são determinantes para o êxito de qualquer projeto de mineração de dados justificando a escolha de uma base já consolidada revisada e organizada Essa escolha também está em consonância com as orientações de Fayyad et al 1996 sobre a importância da preparação de dados no ciclo KDD Knowledge Discovery in Databases etapa crítica que antecede a análise propriamente dita A base em questão reúne aproximadamente 1000 registros sendo que cada linha representa uma empresa única Os dados incluem tanto informações cadastrais básicas como razão social e setor de atuação quanto variáveis de maior relevância analítica como o Faturamento Presumido FatPres indicador do volume financeiro movimentado pela empresa e a Quantidade de Funcionários que permite inferir o porte organizacional Complementarmente a base contempla variáveis auxiliares como segmento de mercado localização geográfica risco de inadimplência e status de atividade que foram utilizadas de forma exploratória na etapa inicial do estudo Essas informações adicionais contribuíram para verificar a consistência dos clusters gerados bem como a sua capacidade de representar grupos economicamente e operacionalmente distintos Em linha com as contribuições de Kotler e Keller 2012 compreender o tamanho a complexidade e o potencial de consumo de cada cliente é um passo fundamental para qualquer iniciativa de segmentação orientada a resultados especialmente no contexto B2B onde os volumes transacionais e os ciclos de relacionamento tendem a ser mais longos Ao optar por uma base realista e alinhada ao mercado de atuação da empresa em questão o estudo assegura maior aplicabilidade dos seus achados Dessa forma os clusters resultantes da análise podem ser efetivamente utilizados como subsídio à atuação da equipe comercial permitindo a personalização de estratégias de prospecção abordagem e retenção de acordo com o perfil identificado de cada segmento KOTLER KELLER 2012 OLIVEIRA 2018 441 PRÉ PROCESSAMENTO 83 Após a escolha da base de dados foi necessário realizar o pré processamento etapa considerada essencial em qualquer projeto de mineração de dados e que influencia diretamente a qualidade dos modelos e das interpretações subsequentes FAYYAD et al 1996 HAN KAMBER PEI 2012 O pré processamento tem como objetivo central preparar os dados de forma a garantir que os algoritmos de análise operem sobre um conjunto coerente livre de ruídos e inconsistências maximizando a confiabilidade dos resultados A primeira atividade conduzida nesse processo foi a etapa de limpeza dos dados que consistiu na verificação detalhada da qualidade dos registros bem como na identificação e eliminação de inconsistências erros de digitação duplicatas e valores ausentes Conforme alertam Han Kamber e Pei 2012 a presença de dados incompletos ou imprecisos pode comprometer profundamente o desempenho de modelos preditivos e de agrupamento levando a interpretações equivocadas e à tomada de decisões inadequadas Durante essa análise observouse que diversas linhas da base não apresentavam valores preenchidos em campos considerados críticos especialmente o Faturamento Presumido FatPres e a Quantidade de Funcionários variáveis fundamentais para o processo de clusterização Por essa razão optouse pela exclusão de todos os registros incompletos nessas variáveis de modo a assegurar a integridade e a consistência da análise posterior A segunda etapa consistiu na transformação dos dados mais especificamente na aplicação de uma função logarítmica sobre os valores de faturamento Essa técnica é amplamente utilizada em estudos que lidam com variáveis financeiras dada a frequência de distribuições assimétricas e a presença de outliers severos ou seja empresas cujos faturamentos são excepcionalmente altos em comparação com a média da amostra TAN STEINBACH KUMAR 2019 Ao aplicar o logaritmo reduzse a amplitude dos valores comprimindo as escalas e permitindo uma análise mais homogênea Essa transformação é particularmente útil em algoritmos de agrupamento baseados em distância como o Kmeans pois evita que empresas muito grandes exerçam influência desproporcional na definição dos centroides dos clusters HAN KAMBER PEI 2012 Tratase portanto de uma etapa crucial para garantir que a segmentação reflita padrões reais de similaridade e não apenas diferenças de ordem de magnitude Além disso foi incorporada uma nova variável ao conjunto de dados denominada Desempenho do Cliente Essa variável não estava presente originalmente na base mas foi simulada com valores entre 1 e 10 com o intuito de ilustrar o potencial analítico da introdução de métricas qualitativas na segmentação de clientes Conforme salientam Kotler e Keller 2012 a avaliação do desempenho dos clientes deve considerar não apenas aspectos financeiros mas também comportamentais e relacionais como a regularidade nos pagamentos engajamento com os serviços e feedbacks operacionais Embora a métrica de desempenho utilizada neste estudo tenha caráter ilustrativo sua inclusão representa uma boa prática na modelagem orientada ao cliente permitindo a construção de estratégias mais personalizadas e eficientes Com essas ações de limpeza transformação e criação de variáveis adicionais a base de dados passou a apresentar melhores condições para a aplicação de técnicas de clusterização assegurando maior robustez estatística coerência analítica e aplicabilidade prática aos resultados obtidos 83 84 442 ANÁLISE ESTATÍSTICA Depois da etapa de preparação da base de dados foi conduzida uma análise estatística exploratória com o objetivo de compreender em maior profundidade as características dos dados disponíveis antes da aplicação dos métodos de agrupamento Conforme argumentam Han Kamber e Pei 2012 a análise exploratória constitui uma etapa indispensável no processo de mineração de dados pois permite identificar padrões inconsistências tendências e valores atípicos que podem comprometer a integridade dos resultados extraídos pelas técnicas posteriores O primeiro passo consistiu no cálculo de medidas estatísticas descritivas como média valor mínimo máximo e amplitude com ênfase nas variáveis de maior relevância para o estudo a saber Faturamento Presumido e Quantidade de Funcionários Como apontam Fayyad et al 1996 a obtenção de resumos estatísticos é uma prática fundamental para lidar com grandes volumes de dados uma vez que facilita a interpretação inicial e auxilia na identificação de assimetrias e possíveis distorções A análise revelou que embora a maior parte das empresas apresente faturamento em faixas intermediárias algumas registram valores extremamente elevados chegando a cifras bilionárias Essa disparidade justifica a aplicação da transformação logarítmica ao faturamento procedimento amplamente adotado em estudos financeiros com o intuito de minimizar a influência de outliers e promover uma distribuição mais equilibrada dos dados TAN STEINBACH KUMAR 2019 Quanto à Quantidade de Funcionários verificouse uma heterogeneidade significativa entre as empresas analisadas com registros que variam de microestruturas operacionais a grandes corporações Essa diversidade reforça a necessidade de considerar múltiplos atributos no processo de segmentação como defendido por Kotler e Keller 2012 que enfatizam a importância de reconhecer a pluralidade de perfis no ambiente B2B onde diferentes portes organizacionais implicam necessidades e comportamentos comerciais distintos Para aprofundar a análise foi examinada a correlação entre o faturamento e o porte das empresas representado pela quantidade de colaboradores Utilizouse para isso o coeficiente de correlação de Pearson ferramenta estatística indicada por Han Kamber e Pei 2012 para avaliar a intensidade da associação linear entre variáveis numéricas O valor obtido próximo de 0043 revelou uma correlação praticamente nula entre essas variáveis indicando que o número de funcionários não é por si só um preditor direto do faturamento empresarial Esse achado está em consonância com a realidade do mercado B2B onde empresas enxutas em termos de pessoal como firmas de consultoria ou tecnologia podem apresentar faturamentos elevados ao passo que organizações com grande número de funcionários como prestadoras de serviços operacionais podem operar com margens de receita mais modestas Para ilustrar visualmente essa constatação foi construída uma matriz de correlação Figura 1 conforme recomendação de Tan Steinbach e Kumar 2019 Essa ferramenta permite a representação gráfica da força de relação entre pares de 85 variáveis Na diagonal principal observase sempre o valor 1 que representa a autocorrelação de cada variável consigo mesma Fora da diagonal o valor de 0043 entre Faturamento e Funcionários reforça visualmente a ausência de relação direta entre essas variáveis Figura 12 Matriz de correlação entre Faturamento e Quantidade de Funcionários Essa visualização evidencia que as variáveis analisadas não possuem dependência linear o que é um indicativo importante para o processo de clusterização Isso demonstra que não é possível nem prudente assumir que uma empresa com maior número de funcionários necessariamente gera mais receita ou viceversa Tal constatação justifica a decisão metodológica de manter ambas as variáveis na modelagem visto que cada uma oferece uma dimensão analítica distinta agregando valor à identificação de padrões e à construção dos grupos 85 86 Ao utilizar essas variáveis em conjunto no processo de agrupamento o algoritmo pode captar nuances específicas do perfil organizacional dos clientes Por exemplo é possível identificar clusters compostos por empresas de alta receita e estrutura reduzida como startups de base tecnológica bem como grupos formados por organizações com muitos funcionários mas com faturamento relativamente menor como empresas do setor de serviços operacionais ou intensivos em mão de obra A integração de variáveis que capturam diferentes aspectos do perfil empresarial potencializa a eficácia da segmentação tornandoa mais robusta e alinhada às exigências do mercado Essa abordagem também se mostra coerente com os princípios defendidos por Kotler e Keller 2012 que argumentam que estratégias comerciais bemsucedidas no ambiente B2B exigem uma compreensão holística do comportamento do cliente Ao evitar reducionismos e considerar a complexidade dos dados aumentase a probabilidade de gerar grupos mais coerentes e úteis para a definição de ações estratégicas de vendas prospecção e relacionamento 443 MINERAÇÃO DE DADOS Com a base de dados devidamente limpa transformada e explorada estatisticamente foi possível avançar para a etapa de mineração de dados considerada uma das fases mais importantes do processo de Descoberta de Conhecimento em Bases de Dados Knowledge Discovery in Databases KDD conforme proposto por Fayyad et al 1996 Esta fase é responsável por extrair padrões úteis e estruturados a partir de grandes volumes de dados sendo particularmente relevante em contextos empresariais que visam gerar inteligência competitiva No escopo desta pesquisa a mineração de dados tem como finalidade identificar padrões ocultos no perfil dos clientes empresariais possibilitando a criação de estratégias mais personalizadas e eficazes de relacionamento comercial marketing e vendas Para isso recorrese ao uso de técnicas de agrupamento também chamadas de clustering que possibilitam organizar os clientes em grupos homogêneos de acordo com semelhanças estruturais e comportamentais HAN KAMBER PEI 2012 Dentre os diversos algoritmos de agrupamento disponíveis optouse pelo uso do KMeans amplamente reconhecido na literatura por sua eficácia na segmentação de dados numéricos contínuos simplicidade conceitual e rapidez de execução TAN STEINBACH KUMAR 2019 Tratase de um algoritmo de clustering não supervisionado ou seja que não requer informações prévias sobre as classes ou categorias dos dados Seu funcionamento baseiase na medição da similaridade entre registros por meio da distância euclidiana atribuindo cada ponto ao centroide mais próximo e iterativamente recalculando a posição dos centroides até atingir a convergência A ausência da necessidade de rótulos prévios torna o KMeans especialmente adequado para ambientes em que os dados não foram previamente classificados como é o caso de muitas bases comerciais reais permitindo a descoberta de estruturas latentes com autonomia 87 Além do seu rigor matemático o KMeans se destaca por ser um dos métodos mais acessíveis em termos computacionais podendo ser executado com eficiência mesmo em bases de grande porte Isso o torna uma ferramenta altamente viável para ser utilizada por equipes comerciais e de marketing que muitas vezes não dispõem de suporte técnico contínuo Outro diferencial relevante está na clareza dos seus resultados que facilita a interpretação e aplicação prática dos clusters identificados característica essencial quando se busca utilizar a análise de dados como ferramenta de apoio à tomada de decisão estratégica KOTLER KELLER 2012 Durante o delineamento metodológico deste trabalho outras técnicas também foram consideradas a fim de assegurar que a escolha do algoritmo mais adequado fosse pautada em critérios de coerência com os objetivos da pesquisa A Análise Fatorial por exemplo é frequentemente utilizada para redução de dimensionalidade agrupando variáveis correlacionadas em componentes principais e facilitando a visualização e interpretação de grandes conjuntos de dados HAIR et al 2009 Contudo como este estudo concentrouse em um número propositalmente reduzido de variáveis especificamente o Faturamento e a Quantidade de Funcionários optouse por não aplicar métodos de redução preservando a interpretação direta dos clusters gerados a partir dessas variáveis brutas De forma semelhante algoritmos supervisionados como Árvore de Decisão e Random Forest são frequentemente utilizados em tarefas preditivas em que existe um atributo de interesse variávelalvo conhecido e rotulado HAN KAMBER PEI 2012 Porém como a intenção deste trabalho não é prever um resultado específico mas sim descobrir padrões naturais de agrupamento entre empresas esses métodos supervisionados não se mostraram apropriados ao problema em questão Avaliaramse ainda abordagens mais sofisticadas como os algoritmos inspirados em inteligência de enxames por exemplo a Otimização por Colônia de Formigas Ant Colony Optimization ACO que apesar de sua eficácia em contextos de alta complexidade apresentam custo computacional elevado e exigem parametrização cuidadosa para convergir a soluções estáveis Tais requisitos dificultam sua aplicação em ambientes empresariais rotineiros nos quais a simplicidade operacional e a rapidez na obtenção de insights são características decisivas TAN STEINBACH KUMAR 2019 Dentro desses aspectos a escolha pelo algoritmo KMeans demonstrouse a mais adequada tanto do ponto de vista técnico quanto prático conciliando rigor analítico velocidade de processamento e usabilidade Essa decisão metodológica está em consonância com a proposta deste estudo que busca entregar uma solução robusta e aplicável para segmentação de clientes no contexto B2B promovendo uma análise baseada em dados com potencial de impacto direto nas estratégias comerciais da organização Diante das comparações realizadas entre diferentes abordagens o algoritmo KMeans foi definitivamente escolhido como a técnica central de agrupamento para este trabalho devido ao seu equilíbrio entre simplicidade operacional eficiência computacional qualidade dos agrupamentos gerados e clareza dos resultados obtidos Para determinar o número ótimo de clusters a ser utilizado no algoritmo foi 87 88 aplicado o método do cotovelo elbow method amplamente recomendado por Han Kamber e Pei 2012 como uma das formas mais eficazes de validar a quantidade de agrupamentos em cenários não supervisionados Essa técnica consiste em calcular a soma das distâncias quadráticas dentro dos clusters inércia intracluster para diferentes valores de kkk e observar em qual ponto o ganho marginal na redução dessa inércia se torna pouco expressivo formando um cotovelo na curva o que indica o número ideal de clusters para balancear qualidade da segmentação e parcimônia interpretativa Figura 13 Gráfico do método do cotovelo para definição do número de clusters dados brutos A análise inicial foi realizada utilizando os dados de Faturamento na forma original sem transformações A Figura 2 apresenta o gráfico gerado nessa etapa em que se nota uma queda acentuada nos primeiros valores de kkk sinalizando que o algoritmo é eficaz em reduzir a variabilidade dentro dos grupos à medida que mais clusters são adicionados No entanto observase também que a partir de determinado ponto essa taxa de redução desacelera consideravelmente indicando que a adição de novos agrupamentos não oferece ganhos substanciais na compactação dos dados Esse comportamento é típico em bases com alta variabilidade interna HAN KAMBER PEI 2012 como aquelas compostas por registros financeiros empresariais e reforça a aplicabilidade do método do cotovelo como instrumento diagnóstico 89 Apesar disso um obstáculo importante emergiu nessa primeira análise a presença de valores extremos de Faturamento outliers bastante comuns em bases do tipo B2B especialmente quando há empresas de grande porte inseridas no mesmo conjunto que pequenas e médias organizações Esses valores fora da curva distorcem a distribuição e afetam diretamente a métrica de inércia fazendo com que o gráfico do cotovelo perca definição e dificulte a visualização do ponto de inflexão exato Conforme descrevem Han Kamber e Pei 2012 esse fenômeno é recorrente em bases com ampla dispersão numérica e exige estratégias de tratamento específico como normalização ou transformação de escala Como solução foi adotada a transformação logarítmica da variável Faturamento prática consagrada na literatura estatística para lidar com distribuições assimétricas e escalas amplas especialmente em dados financeiros TAN STEINBACH KUMAR 2019 Ao aplicar o logaritmo as diferenças entre os valores se comprimem reduzindo a influência de outliers e equilibrando a contribuição dos dados para o cálculo da inércia A reaplicação do método do cotovelo com a nova variável transformada está ilustrada na Figura 3 Observase neste novo gráfico que a curva se torna mais suave e o ponto de inflexão mais nítido permitindo identificar com maior segurança o número ótimo de clusters a ser utilizado Essa transformação portanto não apenas melhora a qualidade estatística da análise como também fortalece sua robustez metodológica eliminando ruídos causados por distorções extremas na escala de Faturamento Complementarmente para reforçar a escolha do número de agrupamentos e validar visualmente a coerência dos clusters gerados foram elaborados gráficos de dispersão conforme recomendação de Han Kamber e Pei 2012 que destacam a importância da visualização como recurso para validar padrões de agrupamento e comunicar resultados de maneira acessível a públicos não técnicos A Figura 4 apresenta o gráfico de dispersão elaborado com os dados originais de Faturamento versus Quantidade de Funcionários e nela é possível perceber uma forte concentração de pontos em uma faixa estreita com alguns registros distantes à direita do plano representando empresas de altíssimo faturamento Essa compressão compromete a clareza da visualização e pode obscurecer os agrupamentos reais Em resposta a essa limitação foi gerado um novo gráfico de dispersão agora com o Faturamento transformado logaritmicamente conforme apresentado na Figura 5 Essa modificação melhora substancialmente a distribuição visual dos dados permitindo observar com mais nitidez como os pontos se organizam no espaço bidimensional e consequentemente como os clusters se definem Essa abordagem confirma de maneira empírica e visual que a transformação logarítmica não apenas aprimora os resultados do método do cotovelo mas também potencializa a capacidade do KMeans de formar grupos mais bem definidos coerentes e aderentes à realidade mercadológica Ao reduzir os efeitos dos extremos a análise tornase mais representativa da distribuição da maioria das empresas da base possibilitando a formulação de estratégias comerciais mais precisas e contextualizadas Figura 14 Gráfico do método do cotovelo com transformação logarítmica do Faturamento 89 90 A análise do gráfico do método do cotovelo após a aplicação da transformação logarítmica sobre a variável Faturamento revelou uma mudança significativa no comportamento da curva Ao suavizar a distribuição dos dados a transformação eliminou distorções provocadas pelos valores extremamente elevados de algumas empresas que anteriormente exerciam influência desproporcional sobre os cálculos de inércia intracluster Como ressaltam Tan Steinbach e Kumar 2019 esse tipo de transformação é altamente recomendado em contextos de análise financeira pois permite uma melhor estabilização da variância e viabiliza uma interpretação mais precisa da estrutura latente dos dados Como resultado o ponto de inflexão que indica a quantidade ótima de agrupamentos tornouse visualmente mais nítido facilitando sua identificação e consequentemente aumentando a confiabilidade do modelo de segmentação HAN KAMBER PEI 2012 Paralelamente à análise numérica proporcionada pelo método do cotovelo recorreuse ao uso de gráficos de dispersão como técnica complementar de validação visual dos agrupamentos Essa prática é incentivada por Han Kamber e Pei 2012 que reconhecem a importância das representações gráficas como ferramentas essenciais para avaliar a coesão e a separabilidade dos clusters formados sobretudo quando o objetivo é comunicar os achados a públicos diversos incluindo gestores e tomadores de decisão não especializados em ciência de dados Os gráficos de dispersão facilitam a observação intuitiva dos padrões de distribuição mostrando como os registros se posicionam em relação às variáveis principais neste estudo Faturamento e Quantidade de Funcionários A Figura 4 apresenta o gráfico de dispersão construído com os dados de Faturamento em sua escala original Notase uma alta concentração de pontos próximos à origem do plano cartesiano o que indica que a maioria das empresas possui faturamentos relativamente baixos No entanto observase também a presença de pontos isolados e muito distantes no eixo horizontal correspondentes a 91 empresas com faturamentos excepcionalmente elevados Essa disparidade gera uma compressão visual dos dados dificultando a identificação clara dos agrupamentos e comprometendo a análise visual da distribuição dos clientes Para contornar essa limitação e aprimorar a qualidade da visualização foi gerado um novo gráfico de dispersão com o Faturamento transformado logaritmicamente conforme orientações metodológicas de Tan Steinbach e Kumar 2019 A Figura 5 exibe os resultados dessa abordagem evidenciando uma distribuição muito mais homogênea dos dados no espaço bidimensional Com a compressão da escala os pontos passam a se posicionar de forma mais equilibrada permitindo visualizar com maior nitidez os contornos de cada cluster Essa clareza reforça a qualidade do agrupamento gerado pelo algoritmo KMeans que agora opera sobre uma base de dados menos assimétrica e mais representativa da realidade mercadológica Portanto a aplicação da transformação logarítmica tanto na análise do método do cotovelo quanto na visualização por dispersão revelouse uma estratégia metodológica eficaz para lidar com a natureza desigual dos dados financeiros empresariais A melhora na definição dos clusters não apenas contribui para a robustez da modelagem mas também facilita sua aplicação prática permitindo que os resultados gerados orientem decisões comerciais mais precisas e segmentadas Figura 15 Distribuição dos clusters considerando Faturamento original e Quantidade de Funcionários Ao analisar a Figura 4 observase uma forte concentração de pontos próximos ao valor zero no eixo de Faturamento com apenas um pequeno número de empresas posicionadas mais à direita do gráfico evidenciando valores de faturamento consideravelmente elevados Esse tipo de distribuição desigual é característico de bases de dados empresariais especialmente em contextos B2B nos quais um número reduzido de grandes contas concentra a maior parte da receita 91 92 da empresa enquanto a maioria dos clientes possui faturamentos mais modestos HAN KAMBER PEI 2012 Essa assimetria severa compromete a utilidade do gráfico de dispersão original pois os dados da maior parte dos clientes ficam comprimidos em uma faixa muito estreita dificultando a distinção de perfis e a visualização de possíveis agrupamentos Para mitigar essa distorção e permitir uma análise mais clara e representativa foi aplicada uma transformação logarítmica na variável Faturamento Tal estratégia é amplamente recomendada na literatura especializada como forma eficaz de lidar com variáveis altamente assimétricas e de atenuar a influência de outliers TAN STEINBACH KUMAR 2019 A Figura 5 que apresenta o gráfico de dispersão com o Faturamento já transformado evidencia uma distribuição mais equilibrada ao longo do eixo horizontal Os pontos agora se espalham de maneira mais homogênea o que facilita não apenas a percepção visual dos clusters mas também melhora os cálculos de distância realizados pelo algoritmo KMeans resultando em agrupamentos mais coerentes e consistentes com a realidade de mercado Além dos ganhos técnicos a transformação logarítmica também contribui para a clareza da comunicação dos resultados especialmente quando apresentados a públicos não técnicos O gráfico com a escala ajustada oferece uma representação visual mais acessível e intuitiva permitindo que gestores e tomadores de decisão compreendam facilmente as justificativas adotadas nas etapas de pré processamento como defendido por Han Kamber e Pei 2012 Essa abordagem favorece a aceitação prática do modelo e fortalece sua aplicação no ambiente corporativo Portanto a comparação entre os gráficos de dispersão com o Faturamento em escala original Figura 4 e transformada Figura 5 comprova que o uso do logaritmo foi uma decisão metodológica essencial para aprimorar a qualidade da clusterização A transformação permitiu que o algoritmo detectasse padrões mais representativos da diversidade empresarial ao mesmo tempo que facilitou a visualização e interpretação dos dados Com isso os objetivos da segmentação identificar grupos de clientes mais precisos úteis e alinhados às estratégias comerciais foram alcançados com maior eficácia Figura 16 Distribuição dos clusters considerando Faturamento transformado em log e Quantidade de Funcionários 93 A análise dos gráficos de dispersão comprova de forma clara e objetiva que a combinação do algoritmo KMeans com a transformação logarítmica da variável Faturamento constitui uma estratégia altamente eficaz para a segmentação de clientes em grupos mais homogêneos Essa abordagem equilibra a distribuição dos dados e revela padrões que seriam mascarados por valores extremos conforme ressaltam Han Kamber e Pei 2012 e Tan Steinbach e Kumar 2019 Ao suavizar as discrepâncias provocadas por grandes outliers a transformação permite ao algoritmo formar clusters mais representativos da realidade empresarial A aplicação conjunta dessas técnicas assegura que o agrupamento final reflita com maior fidelidade a diversidade dos perfis de clientes oferecendo uma leitura mais justa tanto para pequenas empresas quanto para grandes contas estratégicas Como destacam Kotler e Keller 2012 a clareza na definição dos segmentos é essencial para que as áreas comerciais e de marketing possam alinhar suas ações ao potencial de cada grupo promovendo maior eficácia nas estratégias de prospecção relacionamento e fidelização Adicionalmente a visualização gráfica dos clusters favorece a compreensão dos resultados por gestores e equipes operacionais que não possuem formação técnica tornando a segmentação uma ferramenta acessível e prática no apoio ao planejamento comercial Essa acessibilidade permite por exemplo a personalização de ofertas e a alocação mais inteligente de recursos garantindo que o esforço comercial seja concentrado nos clusters com maior potencial de receita e valor de relacionamento ao longo do tempo Dessa forma consolidase uma atuação orientada por dados alinhada à estratégia de negócios e voltada à maximização do retorno sobre os investimentos realizados KOTLER KELLER 2012 444 SIMULAÇÃO DE MÉTRICAS DE NEGÓCIO 93 94 Para complementar a análise técnica dos clusters e estabelecer uma conexão direta entre a segmentação de clientes e indicadores estratégicos de negócio foi realizada uma simulação prática de duas métricas amplamente utilizadas na gestão comercial no contexto B2B o Custo de Aquisição de Clientes CAC e o Lifetime Value LTV conforme proposto por Kotler e Keller 2012 O LTV ou valor vitalício do cliente representa o montante estimado que uma empresa tende a gerar ao longo de todo o relacionamento com um cliente Tratase de uma métrica fundamental para avaliar a lucratividade potencial de contas individuais ou segmentos específicos Para este estudo optouse por uma abordagem prática e simplificada o LTV foi estimado como 120 do faturamento atual de cada cliente simulando cenários comuns em mercados B2B como renovações contratuais vendas adicionais upsell e vendas cruzadas crosssell conforme orientação de Stone e Woodcock 2014 Essa abordagem se justifica pela ausência de variáveis históricas detalhadas sobre tempo de permanência ou taxa de churn inviabilizando o uso de fórmulas preditivas mais robustas Cabe destacar que embora o LTV idealmente deva considerar fatores como duração do ciclo de vida e recorrência de compras neste caso a simulação percentual foi adotada com o objetivo de viabilizar comparações realistas entre os clusters formados oferecendo uma perspectiva relativa do valor de cada grupo O CAC por sua vez foi estimado com base em uma média representativa dos custos associados à aquisição de clientes incluindo despesas com marketing deslocamentos equipe comercial e estrutura de propostas Essa estimativa se alinha à definição de Kotler e Keller 2012 que defendem que o CAC deve refletir o conjunto de investimentos necessários à conversão em vendas sobretudo em processos consultivos típicos do ambiente B2B A partir dessas duas métricas simuladas para cada cliente foram calculadas as médias de LTV e CAC por cluster permitindo a construção de um panorama comparativo da rentabilidade relativa de cada grupo Essa comparação fornece subsídios para identificar quais segmentos apresentam o melhor equilíbrio entre custo de aquisição e retorno financeiro contribuindo para a otimização dos investimentos em marketing e vendas STONE WOODCOCK 2014 A Figura 6 apresenta um gráfico de dispersão com os valores médios de CAC e LTV por cluster Cada ponto no gráfico representa um cluster distinto posicionandose de acordo com o custo médio de aquisição e o valor médio de retorno vitalício Essa visualização facilita a identificação de grupos mais atrativos caracterizados por alto LTV e CAC controlado bem como de clusters com baixo retorno e custos elevados que podem representar ineficiências operacionais Figura 17 Relação entre CAC e LTV médios por cluster 95 Observase na Figura 6 que determinados clusters se destacam por apresentar um LTV médio elevado mesmo mantendo CACs dentro da média geral Essa característica confirma a premissa de Kotler e Keller 2012 de que clientes de alto valor compensam os custos iniciais de aquisição por meio de ciclos mais longos fidelidade e maior ticket médio Esses clusters representam portanto contas estratégicas que justificam a aplicação de ações mais intensivas e personalizadas de relacionamento como atendimento dedicado e propostas sob medida Em contrapartida a análise revela clusters com LTV relativamente baixo mas CAC médio semelhante ao dos grupos mais rentáveis Conforme alertado por Stone e Woodcock 2014 essa situação indica um risco operacional comum a alocação de recursos para clientes de baixa rentabilidade o que reduz a eficiência da força de vendas e compromete o retorno dos investimentos comerciais Essa leitura prática do gráfico permite estabelecer critérios objetivos de priorização entre os clusters alinhando estratégias comerciais ao potencial real de cada grupo Clusters com alto LTV e CAC sob controle podem ser acompanhados por executivos de contas e programas de fidelização Já os grupos menos rentáveis podem ser atendidos por meio de canais automatizados suporte digital e propostas padronizadas reduzindo custos sem comprometer a cobertura de mercado Em síntese a análise conjunta de LTV e CAC valida não apenas a eficácia técnica do agrupamento mas também traduz os resultados em recomendações estratégicas de aplicação imediata Essa integração entre mineração de dados e gestão comercial assegura maior racionalidade na alocação de recursos melhora o retorno sobre os investimentos e contribui diretamente para o aumento da lucratividade da base de clientes STONE WOODCOCK 2014 KOTLER KELLER 2012 95 96 RESULTADOS Após o processamento completo dos dados e a aplicação do algoritmo KMeans o conjunto de clientes foi segmentado em cinco clusters bem definidos cada um caracterizado por perfis financeiros e operacionais distintos Essa segmentação permitiu revelar padrões relevantes que sustentam decisões mais estratégicas em termos de priorização de clientes personalização de ofertas estruturação de pacotes de serviços e planejamento de ações de relacionamento de longo prazo Essa abordagem está alinhada com os princípios defendidos por Stone e Woodcock 2014 que destacam a importância do uso de técnicas de agrupamento para tornar a gestão de clientes mais eficiente e personalizada O Cluster 0 emergiu como o grupo mais expressivo em termos financeiros apresentando um faturamento médio superior a R 63 bilhões e um LTV estimado em aproximadamente R 756 bilhões Notavelmente o CAC médio para conquistar ou manter clientes desse grupo foi de apenas R 307844 valor muito próximo ao dos clusters de menor retorno Esse resultado confirma a ideia de retorno elevado sobre investimento uma vez que contas estratégicas com alto potencial de receita justificam abordagens mais robustas de relacionamento e investimento consultivo KOTLER KELLER 2012 Portanto a recomendação é que o time comercial priorize esse cluster com estratégias de fidelização personalizadas atendimento dedicado e construção de relacionamentos de longo prazo Em contraposição o Cluster 1 agrega empresas com faturamento médio de R 34 milhões e LTV aproximado de R 41 milhões mas cujo CAC médio R 305060 praticamente se iguala ao do Cluster 0 Com uma média de 83 funcionários por empresa essas organizações são em geral de pequeno porte Como sugerem Kotler e Keller 2012 clientes de baixo valor devem ser atendidos com soluções automatizadas e de menor custo operacional evitando onerar o processo comercial com abordagens consultivas não rentáveis De forma semelhante o Cluster 2 também apresenta faturamento médio de R 338 milhões e LTV de cerca de R 406 milhões com um CAC de R 288247 No entanto distinguese pelo maior porte médio das empresas com aproximadamente 284 funcionários Esse perfil indica operações mais estruturadas porém com margens potencialmente mais estreitas Para esse tipo de segmento Stone e Woodcock 2014 recomendam a adoção de estratégias escaláveis como vendas em massa propostas automatizadas e menor envolvimento da equipe de campo maximizando a eficiência operacional O Cluster 3 por sua vez apresenta um perfil intermediário entre valor e estrutura As empresas desse grupo possuem um faturamento médio de R 156 milhões com LTV estimado de R 187 milhões além de um CAC de R 281356 o mais baixo entre todos os clusters A média de 1082 funcionários sugere uma base com alto grau de maturidade operacional Essa combinação reforça a hipótese de que clientes com processos internos mais robustos tendem a ter maior permanência e recorrência o que justifica investimentos em programas de crosssell e suporte contínuo KOTLER KELLER 2012 97 Já o Cluster 4 apresenta um perfil médio com faturamento de R 196 milhões LTV de R 235 milhões e CAC de R 305990 Com uma estrutura organizacional mais enxuta 203 funcionários em média esse grupo demonstra potencial para a adoção de pacotes modulares e escaláveis permitindo adequação das soluções ofertadas conforme o crescimento ou sazonalidade do cliente o que pode maximizar margem e flexibilidade comercial STONE WOODCOCK 2014 A comparação entre os clusters permite destacar um princípio estratégico essencial os grupos que combinam alto LTV com CAC controlado devem ser priorizados nas ações comerciais e nos investimentos de relacionamento pois apresentam o maior retorno por esforço investido Em contrapartida clusters de baixo LTV com CAC semelhante aos demais exigem atenção pois tendem a representar menor rentabilidade e portanto devem ser atendidos com modelos mais automatizados e enxutos KOTLER KELLER 2012 Além disso conforme verificado na matriz de correlação apresentada anteriormente não há relação direta entre a quantidade de funcionários e o faturamento das empresas reforçando a importância de considerar múltiplos critérios na segmentação A simples análise de uma variável isolada pode gerar interpretações equivocadas enquanto a análise combinada permite identificar padrões mais representativos da realidade dos clientes Por fim para facilitar o entendimento por parte dos gestores e permitir uma visão mais prática e orientada à tomada de decisão recomendase a construção de um quadro resumo com as médias de Faturamento LTV CAC e Funcionários por cluster Essa síntese gráfica pode servir como base objetiva para definir prioridades comerciais desenvolver planos de ação e otimizar os recursos destinados a cada perfil de cliente Tabela 1 Resumo dos clusters com métricas médias de negócio Cluster Faturamento Médio R LTV Médio R CAC Médio R Funcionários Médios 0 630000000 0 75600 00000 307844 233 1 34000000 41000 000 305060 83 2 33800000 40600 000 288247 284 3 156000000 187000 000 281356 1082 4 196000000 235000 000 305990 203 Em síntese os resultados obtidos demonstram que a segmentação proposta além de agrupar tecnicamente os clientes com base em critérios relevantes proporciona insights acionáveis e altamente úteis para a gestão 97 98 comercial da empresa A análise dos clusters permite uma compreensão aprofundada dos diferentes perfis da carteira subsidiando decisões como a priorização de atendimento a personalização de pacotes de serviços a alocação mais racional dos recursos comerciais e a otimização dos investimentos em aquisição de novos clientes Esse alinhamento entre análise de dados e aplicação prática é essencial para garantir que as estratégias de marketing e vendas resultem em retorno financeiro efetivo Kotler e Keller 2012 ressaltam que o sucesso na gestão de clientes depende justamente da capacidade de transformar dados em ações concretas de relacionamento e retenção indo além da simples análise descritiva Além disso conforme reforçado por Stone e Woodcock 2014 a utilização de técnicas de clusterização aliada a métricas estratégicas de negócio como o CAC e o LTV representa uma das abordagens mais eficazes para assegurar que a segmentação contribua diretamente para o aumento da lucratividade da empresa Ao identificar grupos de alto valor com custos controlados de aquisição a organização pode direcionar seus esforços de forma mais inteligente promovendo a fidelização das contas mais relevantes e assegurando um crescimento sustentável da base de clientes DISCUSSÃO A análise realizada neste estudo evidencia de maneira inequívoca a relevância da segmentação de clientes por meio de técnicas de clusterização como uma estratégia eficaz para otimizar o processo comercial em ambientes B2B Em mercados corporativos caracterizados por ciclos de venda mais longos e custos elevados de aquisição compreender profundamente os perfis de clientes tornase uma exigência para a alocação eficiente de recursos e maximização do retorno sobre o investimento KOTLER KELLER 2012 Ao agrupar os clientes com base em variáveis significativas como faturamento porte operacional e métricas simuladas de desempenho foi possível identificar padrões que não apenas orientam a priorização comercial mas também fundamentam ações práticas como definição de pacotes de serviço políticas de precificação e estratégias de fidelização O Cluster 0 por exemplo se destacou com um perfil de altíssimo faturamento e LTV elevado mantendo um CAC compatível com os demais grupos Esse tipo de insight conforme argumentam Stone e Woodcock 2014 é essencial para estratégias de atendimento personalizado em que visitas presenciais suporte dedicado e programas de retenção se tornam investimentos estratégicos e não apenas custos operacionais Outro ponto fundamental revelado é que a clusterização deve ser entendida como um processo dinâmico e não estático Han Kamber e Pei 2012 destacam que à medida que o ambiente de negócios se transforma os perfis dos clientes também evoluem exigindo a reavaliação contínua dos agrupamentos Neste contexto a inclusão de variáveis comportamentais mesmo que simuladas como o desempenho do cliente reforça a importância de incorporar indicadores 99 atualizáveis que captem mudanças relevantes seja no volume de compras nos atrasos de pagamento ou na expansão da operação A adoção de ferramentas de monitoramento contínuo como dashboards interativos alertas gerenciais e relatórios periódicos é fortemente recomendada por Kotler e Keller 2012 como forma de garantir que a segmentação permaneça aderente à realidade da carteira e ao ciclo de vida de cada cliente Isso eleva a maturidade da inteligência comercial da organização transformando dados em decisões estratégicas com impacto direto nas receitas Do ponto de vista metodológico o modelo proposto mostrase robusto ao articular etapas consolidadas da mineração de dados incluindo a limpeza transformação análise exploratória aplicação do algoritmo KMeans e validação com o método do cotovelo com a simulação de métricas relevantes como o Custo de Aquisição de Clientes CAC e o Lifetime Value LTV A integração entre técnicas estatísticas e indicadores de negócio transforma o modelo em uma ferramenta aplicável à realidade de qualquer equipe de vendas orientada por dados TAN STEINBACH KUMAR 2019 Embora o estudo tenha sido aplicado a uma base de empresas do setor de cobrança o framework desenvolvido possui alta capacidade de replicação em outros segmentos B2B como tecnologia serviços especializados consultorias e indústrias A adaptação requer apenas a seleção criteriosa de variáveis que representem o comportamento do cliente no respectivo mercado STONE WOODCOCK 2014 Concluise portanto que a segmentação de clientes baseada em clusterização quando combinada a indicadores financeiros e operacionais constitui uma poderosa ferramenta de apoio à tomada de decisão estratégica Ao permitir a personalização do relacionamento comercial otimizar os investimentos em prospecção e fidelização e alinhar os esforços ao potencial de cada cliente essa abordagem contribui para a construção de uma base sólida rentável e escalável em consonância com os objetivos de longo prazo das organizações modernas CONCLUSÃO Este trabalho teve como principal objetivo demonstrar de forma prática e aplicada como a clusterização de clientes pode constituir uma ferramenta robusta para aprimorar a gestão comercial de empresas B2B Alinhado às recomendações de Kotler e Keller 2012 que destacam a segmentação como base para estratégias de marketing direcionadas o estudo estruturou a segmentação a partir de variáveis de fácil obtenção como Faturamento e Quantidade de Funcionários complementadas por métricas simuladas de alta relevância gerencial como o Lifetime Value LTV e o Custo de Aquisição de Clientes CAC conforme preconizado por Stone e Woodcock 2014 99 100 A metodologia seguiu um fluxo completo e sistemático que envolveu desde a seleção e limpeza da base de dados até a transformação de variáveis análise estatística aplicação do algoritmo KMeans e validação com o método do cotovelo e o coeficiente de Silhouette conforme indicado por Han Kamber e Pei 2012 O processo resultou em cinco clusters coerentes revelando diferenças claras entre os grupos quanto à receita potencial estrutura operacional e esforço de aquisição Um dos principais achados foi a constatação de que o número de funcionários não é isoladamente um bom preditor de faturamento reforçando a necessidade de múltiplos critérios na construção de segmentações mais precisas TAN STEINBACH KUMAR 2019 A análise revelou também que mesmo com um conjunto reduzido de variáveis técnicas acessíveis de mineração de dados são capazes de gerar insights práticos e relevantes para a tomada de decisão Como destacam Stone e Woodcock 2014 é fundamental que a abordagem comercial leve em conta o retorno esperado de cada perfil de cliente clusters com alto LTV devem receber estratégias de relacionamento consultivo enquanto grupos com baixo retorno relativo requerem abordagens automatizadas e de baixo custo para preservar a rentabilidade Outro diferencial importante foi a inclusão da variável simulada de Desempenho do Cliente o que abre espaço para a evolução do modelo em ambientes reais de CRM dinâmico incorporando indicadores de engajamento churn satisfação ou ciclo de vida Essa perspectiva está em consonância com a orientação de Kotler e Keller 2012 quanto à necessidade de adaptação contínua das estratégias de relacionamento Recomendase nesse sentido a adoção de painéis automatizados dashboards e ciclos periódicos de atualização da segmentação para acompanhar as mudanças no perfil e no comportamento dos clientes ao longo do tempo HAN KAMBER PEI 2012 A versatilidade da abordagem proposta também se destaca Embora aplicada a uma base de empresas do setor de cobrança a estrutura metodológica é replicável a outros segmentos B2B como tecnologia consultorias ou indústrias bastando adequar as variáveis de entrada conforme a natureza do públicoalvo e os objetivos do negócio STONE WOODCOCK 2014 Concluise portanto que a clusterização apresentada nesta dissertação oferece uma metodologia prática replicável e adaptável capaz de entregar resultados significativos em termos de direcionamento estratégico Ao permitir a identificação de contas de maior potencial redução do CAC aumento do LTV médio e otimização do funil de vendas o modelo contribui não apenas para ganhos imediatos de eficiência e lucratividade mas também para a construção de uma estratégia de crescimento sustentável fundamentada em inteligência de dados KOTLER KELLER 2012 TAN STEINBACH KUMAR 2019 Os resultados obtidos fortalecem tanto a contribuição teórica quanto a aplicabilidade prática do estudo oferecendo às organizações um guia realista e orientado a dados para decisões mais eficientes e competitivas no ambiente corporativo atual 101 REFERÊNCIAS BIBLIOGRÁFICAS AFINITI V P A new approach to proportional hazards modeling for estimating customer lifetime value 2022 BARAN R J GALKA R J STRUNK D P CRM the foundations of contemporary marketing strategy Londres Routledge 2013 BAUER J JANNACH D Improved customer lifetime value prediction with sequencetosequence learning and featurebased models ACM Transactions on Knowledge Discovery from Data v 15 n 5 2021 BERGER P D NASR N I Customer lifetime value marketing models and applications Journal of Interactive Marketing v 12 n 1 p 1730 Winter 1998 BREIMAN L Random forests Machine Learning Dordrecht Springer 2001 BURELLI P Predicting customer lifetime value in freetoplay games 2019 CAO Y RUSMEVICHIENTONG P TOPALOGLU H Revenue management under a mixture of independent demand and multinomial logit models Operations Research v 71 n 2 p 603625 2023 CHENG H CHEN Y Classification of the risk levels of heart disease using a hybrid data mining approach In Proceedings of the International Multiconference of Engineers and Computer Scientists v 1 2009 CUMPS B et al Inferring comprehensible business ICT alignment rules Information Management v 46 n 2 p 116124 2009 DOI 101016jim200805005 DAHANA W D MIWA Y MORISADA M Linking lifestyle to customer lifetime value an exploratory study in an online fashion retail market Journal of Business Research v 99 p 319331 2019 DO C B BATZOGLOU S What is the expectation maximization algorithm Nature Biotechnology v 26 n 8 p 897899 2008 DOMINGOS P The master algorithm Basic Books 2015 101 102 EKSTRAND M D RIEDL J T KONSTAN J A Collaborative filtering recommender systems Foundations and Trends in HumanComputer Interaction v 4 n 2 p 81173 2010 ESTER M et al A densitybased algorithm for discovering clusters in large spatial databases with noise In Proceedings of the Second International Conference on Knowledge Discovery and Data Mining Portland AAAI Press 1996 p 226231 FARRIS P W et al Marketing metrics the definitive guide to measuring marketing performance Londres Pearson 2020 FAYYAD U PIATETSKYSHAPIRO G SMYTH P From data mining to knowledge discovery in databases AI Magazine v 17 n 3 p 3754 1996 FIELD A MILES J FIELD Z Discovering statistics using R 2 ed London Sage 2017 HAIR J F et al Multivariate data analysis 7 ed Upper Saddle River NJ Prentice Hall 2009 HAN J KAMBER M PEI J Data mining concepts and techniques 3 ed Waltham Morgan Kaufmann 2011 HARRIS C R et al Array programming with NumPy Nature v 585 n 7825 p 357362 2020 HÖPPNER S et al Profit driven decision trees for churn prediction European Journal of Operational Research 2018 Disponível em httpswwwelseviercomlocateejor Acesso em 21 jul 2024 HUANG M RUST R T Engaged to a robot The role of AI in service Journal of Service Research v 23 p 97113 2020 HUNTER J D Matplotlib a 2D graphics environment Computing in Science Engineering v 9 n 3 p 9095 2007 JASEK P et al Comparative analysis of selected probabilistic customer lifetime value models in online shopping Journal of Business Economics and Management v 20 n 3 p 398423 2019 KABACOFF R R in action data analysis and graphics with R 3 ed Shelter Island Manning 2021 KANCHANAPOOM K CHONGWATPOL J Integrated customer lifetime value CLV and customer migration model to improve customer segmentation Journal of Marketing Analytics 2022 Disponível em httpslinkspringercomarticle101057s41270022001587 Acesso em 22 jan 2024 103 KANCHANAPOOM K CHONGWATPOL J Integrated customer lifetime value models to support marketing decisions in the complementary and alternative medicine industry Benchmarking 2023 KELLER K L Strategic brand management building measuring and managing brand equity Londres Pearson 2014 KOTLER P KELLER K L Administração de marketing 12 ed São Paulo Pearson Prentice Hall 2006 KRISHNAMURTHY R DESHPANDE P Data visualization with Python 2 ed Birmingham Packt 2022 KUMAR A et al Customer lifetime value prediction using machine learning to forecast CLV and enhance customer relationship management In 7th International Symposium on Multidisciplinary Studies and Innovative Technologies ISMSIT IEEE 2023 KUMAR V Managing customers for profit strategies to increase profits and build loyalty Philadelphia Wharton School Publishing 2018 KUMAR V DIXIT A JAVALGI R G DASS M Relationship marketing in the digital age concepts practices and perspectives Journal of Marketing Management v 36 p 216244 2020 LAROCHELLE H et al Interpretable machine learning decision trees and beyond MIT Press 2022 LI K et al Billionuser customer lifetime value prediction an industrialscale solution from Kuaishou In Proceedings of the International Conference on Information and Knowledge Management Association for Computing Machinery 2022 p 3243 3251 LUNDBERG S M LEE SI A unified approach to interpreting model predictions NeurIPS 2020 MALHOTRA N K Marketing research an applied orientation 5 ed Upper Saddle River NJ Pearson Prentice Hall 2006 MATPLOTLIB Documentação oficial do Matplotlib Disponível em httpsmatplotliborg Acesso em 16 jul 2024 MCDONALD M DUNBAR I Market segmentation how to do it and how to profit from it John Wiley Sons 2012 MCKINNEY W Python for data analysis 3 ed OReilly 2022 MCKINNEY W Data structures for statistical computing in Python In Proceedings of the 9th Python in Science Conference 2010 103 104 MINTZBERG H AHLSTRAND B LAMPEL J Safari de estratégia um roteiro pela selva do planejamento estratégico 2 ed Porto Alegre Bookman 2010 MISSINGNO Repositório oficial do Missingno no GitHub Disponível em httpsgithubcomResidentMariomissingno Acesso em 16 jul 2024 MOLNAR C Interpretable machine learning 2 ed 2022 Disponível em httpschristophmgithubiointerpretablemlbook NATIONAL ACADEMIES OF SCIENCES Data science for undergraduates consensus study report Washington The National Academies Press 2021 NIJKAMP P Multivariate analysis in practice the application of statistical methods Berlin SpringerVerlag 1999 NUMPY Documentação oficial do NumPy Disponível em httpsnumpyorg Acesso em 16 jul 2024 OLIVEIRA D P R Planejamento estratégico conceitos metodologia e práticas 34 ed São Paulo Atlas 2018 OLNÉN J Customer lifetime value maximizing profitability through customer loyalty Business Insights Press 2022 PAGANO M GAUVREAU K Principles of biostatistics 2 ed Boca Raton CRC Press 2018 PANDAS Documentação oficial do Pandas Disponível em httpspandaspydataorg Acesso em 16 jul 2024 PAYNE A FROW P Strategic customer management integrating relationship marketing and CRM Cambridge Cambridge University Press 2017 PEDREGOSA F et al Scikitlearn machine learning in Python Journal of Machine Learning Research v 12 p 28252830 2011 POLLAK Z Predicting customer lifetime value ecommerce use case 2021 POLLAK Z Deep learning applications in customer lifetime value prediction Data Science Journal v 20 2021 QUINLAN J R Induction of decision trees Machine Learning v 1 n 1 p 81106 1986 REZAEINIA S M RAHMANI R Recommender system based on customer segmentation RSCS Kybernetes v 45 n 6 p 946961 2016 RIEDL J KONSTAN J A HumanComputer Interaction Handbook fundamentals evolving technologies and emerging applications In JACKO J A ed 3 ed Boca Raton CRC Press 2011 105 RUMELHART D E HINTON G E WILLIAMS R J Learning representations by backpropagating errors Nature v 323 n 6088 p 533536 1986 RUST R T LEMON K N ZEITHAML V A Return on marketing using customer equity to focus marketing strategy Journal of Marketing v 68 n 1 p 109127 2004 SCIKITLEARN Documentação oficial do Scikitlearn Disponível em httpsscikit learnorgstable Acesso em 16 jul 2024 SEABORN Documentação oficial do Seaborn Disponível em httpsseabornpydataorg Acesso em 16 jul 2024 STONE M et al SCHEMA information on marketing and customer engagement performance reality versus dreams The Bottom Line 2019 Accepted DOI 101108BL0220190065 SU H et al Crossdomain adaptative learning for online advertisement customer lifetime value prediction 2023 TAN P N STEINBACH M KUMAR V Introduction to data mining 2 ed Harlow Pearson 2019 THOMAS R J Multistage market segmentation an exploration of B2B segment alignment Journal of Business and Industrial Marketing v 31 n 7 p 821834 2016 THOMPSON B Exploratory and confirmatory factor analysis understanding concepts and applications Washington DC American Psychological Association 2004 TIMES HIGHER EDUCATION World university rankings 2023 data science and analytics 2023 Disponível em httpswwwtimeshighereducationcom VANDERPLAS J Python data science handbook essential tools for working with data 1 ed Sebastopol OReilly Media 2016 VERBEKE W MARTENS D BAESENS B Building comprehensible customer churn prediction models with advanced rule induction techniques Expert Systems with Applications v 38 n 3 p 23542364 2011 VERHOEVEN D PESCH T CAO Y Utilizing genetic algorithms for revenue management optimization Journal of Revenue and Pricing Management v 22 n 3 p 245265 2023 WANG X LIU T MIAO J A deep probabilistic model for customer lifetime value prediction 2019 Disponível em httparxivorgabs191207753 WASKOM M et al Missingno a missing data visualization suite 2020 Disponível em httpsgithubcomResidentMariomissingno 105 106 WASKOM M L et al Seaborn statistical data visualization Journal of Open Source Software v 5 n 51 p 3021 2020 DOI 1021105joss03021 WASSERMAN L All of statistics a concise course in statistical inference 2 ed New York Springer 2020 WICKHAM H GROLEMUND G R for data science Sebastopol OReilly 2017 WIN T T BO K S Predicting customer class using customer lifetime value with random forest algorithm In International Conference on Advanced Information Technologies ICAIT IEEE 2020 p 236241 WU C et al Contrastive multiview framework for customer lifetime value prediction Proceedings of the ACM Web Conference p 24002408 2023 XIE Y et al Customer churn prediction using improved balanced random forests Expert Systems with Applications v 120 p 239250 2019 DOI 101016jeswa201811030 ZHANG Z ZHAO Y HUZHANG G Exploit customer lifetime value with memoryless experiments 2022 Disponível em httparxivorgabs220106254 ZUUR A F IENO E N ELPHICK C S A protocol for data exploration to avoid common statistical problems Methods in Ecology and Evolution v 10 n 1 p 170 181 2019 pip install pandas numpy matplotlib seaborn scikitlearn Requirement already satisfied pandas in usrlocallibpython311distpackages 222 Requirement already satisfied numpy in usrlocallibpython311distpackages 202 Requirement already satisfied matplotlib in usrlocallibpython311distpackages 3100 Requirement already satisfied seaborn in usrlocallibpython311distpackages 0132 Requirement already satisfied scikitlearn in usrlocallibpython311distpackages 161 Requirement already satisfied pythondateutil282 in usrlocallibpython311distpackages from pandas 290post0 Requirement already satisfied pytz20201 in usrlocallibpython311distpackages from pandas 20252 Requirement already satisfied tzdata20227 in usrlocallibpython311distpackages from pandas 20252 Requirement already satisfied contourpy101 in usrlocallibpython311distpackages from matplotlib 132 Requirement already satisfied cycler010 in usrlocallibpython311distpackages from matplotlib 0121 Requirement already satisfied fonttools4220 in usrlocallibpython311distpackages from matplotlib 4582 Requirement already satisfied kiwisolver131 in usrlocallibpython311distpackages from matplotlib 148 Requirement already satisfied packaging200 in usrlocallibpython311distpackages from matplotlib 242 Requirement already satisfied pillow8 in usrlocallibpython311distpackages from matplotlib 1121 Requirement already satisfied pyyaml231 in usrlocallibpython311distpackages from matplotlib 323 Requirement already satisfied scipy160 in usrlocallibpython311distpackages from scikitlearn 1153 Requirement already satisfied joblib120 in usrlocallibpython311distpackages from scikitlearn 151 Requirement already satisfied threadpoolctl310 in usrlocallibpython311distpackages from scikitlearn 360 Requirement already satisfied six15 in usrlocallibpython311distpackages from pythondateutil282pandas 1170 import pandas as pd import numpy as np import matplotlibpyplot as plt import seaborn as sns from sklearncluster import KMeans from sklearnpreprocessing import StandardScaler from sklearnmetrics import silhouettescore filepaths contentBaseListaLeads55Mvs2xlsx contentcluster0csv contentbaseleadsxlsx contentbaseleadsokxlsx Dicionário para guardar os DataFrames dataframes for path in filepaths if pathendswithxlsx df pdreadexcelpath elif pathendswithcsv df pdreadcsvpath sep tenta sep pois deu erro com else continue dataframespathsplit1 df Verificar quais foram carregados printfArquivos carregados listdataframeskeys Arquivos carregados BaseListaLeads55Mvs2xlsx cluster0csv baseleadsxlsx baseleadsokxlsx Ver resumo de cada DataFrame for name df in dataframesitems printf name printdfinfo printdfhead3 print BaseListaLeads55Mvs2xlsx class pandascoreframeDataFrame RangeIndex 55039 entries 0 to 55038 Data columns total 42 columns Column NonNull Count Dtype 0 55038 55039 nonnull object 1 Unnamed 1 55039 nonnull object 2 Unnamed 2 55039 nonnull object 3 Unnamed 3 55039 nonnull object 4 Unnamed 4 55039 nonnull object 5 Unnamed 5 55039 nonnull object 6 Unnamed 6 55039 nonnull object 7 Unnamed 7 55039 nonnull object 8 R Recorrência 55039 nonnull object 9 Unnamed 9 55039 nonnull object 10 Unnamed 10 55039 nonnull object ANEXOS 11 Unnamed 11 55039 nonnull object 12 Unnamed 12 55039 nonnull object 13 Unnamed 13 55039 nonnull object 14 Unnamed 14 55039 nonnull object 15 Unnamed 15 55039 nonnull object 16 Unnamed 16 55039 nonnull object 17 Unnamed 17 55039 nonnull object 18 Unnamed 18 55039 nonnull object 19 Unnamed 19 55039 nonnull object 20 Unnamed 20 54509 nonnull object 21 Unnamed 21 55039 nonnull object 22 17027 55039 nonnull object 23 3186 55039 nonnull object 24 14310 55039 nonnull object 25 6082 55039 nonnull object 26 Unnamed 26 55039 nonnull object 27 Unnamed 27 55010 nonnull object 28 Unnamed 28 55039 nonnull object 29 Unnamed 29 55039 nonnull object 30 Unnamed 30 55039 nonnull object 31 Unnamed 31 55039 nonnull object 32 Unnamed 32 55039 nonnull object 33 Unnamed 33 55039 nonnull object 34 Unnamed 34 55039 nonnull object 35 Unnamed 35 55033 nonnull object 36 Unnamed 36 55033 nonnull object 37 Unnamed 37 54859 nonnull object 38 Unnamed 38 55039 nonnull object 39 Unnamed 39 9272 nonnull object 40 Unnamed 40 11969 nonnull object 41 Unnamed 41 55039 nonnull object dtypes object42 memory usage 176 MB None 55038 Unnamed 1 Unnamed 2 0 CodEmp CodCNAE CNAEs 1 100000166 4110700 4110700 Incorporação de empreendimentos imob 2 100000172 7112000 7112000 Serviços de engenharia Unnamed 3 Unnamed 4 Unnamed 5 Unnamed 6 0 SegmentoCO SegmentoGL SubsegGL CodGr 1 ENGENHARIACONSTRUÇÃO CONSTRUCAO E PROJETOS INCORPORADORA 0 2 SERVIÇOS SERVICOS ENGENHARIA 0 Unnamed 7 R Recorrência Unnamed 9 0 StatusGr M1 M2 1 0 0 0 2 0 0 0 Unnamed 33 Unnamed 32 0 CNAEs Secundários Cidade 1 41204005223100646200068102036822600 Brasilia 2 8020001771100077390997020400731900462023 Sao Bernardo Do Campo Unnamed 34 Unnamed 35 Unnamed 36 Unnamed 37 0 Estado Microregião Mesoregião QuantFuncionarios 1 DF Brasília Distrito Federal 117 2 SP São Paulo Metropolitana de São Paulo 50 Unnamed 38 Unnamed 39 Unnamed 40 Unnamed 41 0 Natureza Jurídica Exportador Importador 1 1 NaN NaN 2 1 NaN NaN 3 rows x 42 columns cluster0csv class pandascoreframeDataFrame RangeIndex 2799 entries 0 to 2798 Data columns total 25 columns Column NonNull Count Dtype 0 CodEmp 2799 nonnull int64 1 CodCNAE 2799 nonnull int64 2 CNAEs 2799 nonnull object 3 SegmentoCO 2766 nonnull object 4 SegmentoGL 2766 nonnull object 5 SubsegGL 2766 nonnull object 6 CodGr 2766 nonnull float64 7 StatusGr 2766 nonnull object 8 PDPrior 2766 nonnull object 9 FatPres 2766 nonnull float64 10 TitDevs 2766 nonnull float64 11 Porte 2766 nonnull object 12 Situação 2766 nonnull object 13 NívelAtiv 2766 nonnull object 14 RiscoInad 2766 nonnull object 15 CNAEs Secundários 2766 nonnull object 16 Cidade 2766 nonnull object 17 Estado 2766 nonnull object 18 Microregião 2766 nonnull object 19 Mesoregião 2766 nonnull object 20 QuantFuncionarios 2766 nonnull float64 21 Natureza Jurídica 2766 nonnull float64 22 Exportador 2766 nonnull object 23 Importador 2766 nonnull object 24 cluster 2766 nonnull float64 dtypes float646 int642 object17 memory usage 5468 KB None CNAEs CodEmp CodCNAE 0 100020648 5911199 5911199 Atividades de produção cinematográfi 1 100022630 5920100 5920100 Atividades de gravação de som e de e 2 100060378 4930202 4930202 Transporte rodoviário de carga exce SegmentoCO SegmentoGL SubsegGL CodGr StatusGr PDPrior 0 COMUNICAÇÃO SERVICOS COMUNICACAO 00 0 SI 1 COMUNICAÇÃO SERVICOS COMUNICACAO 00 0 SI 2 LOGISTICATRANSPORTE LOGISTICA TRANSPORTADOR 00 0 SI FatPres CNAEs Secundários 0 224000000 591110259138005920100 1 121250000 464940759111997311400 2 172300000 773909946630007820500773220149230024330404 Cidade Estado Microregião 0 Sao Paulo SP São Paulo 1 Sao Paulo SP São Paulo 2 Sao Joao Da Barra RJ Campos dos Goytacazes Mesoregião QuantFuncionarios Natureza Jurídica Exportador 0 Metropolitana de São Paulo 820 10 Não 1 Metropolitana de São Paulo 570 10 Não 2 Norte Fluminense 510 10 Não Importador cluster 0 Não 00 1 Não 00 2 Não 00 3 rows x 25 columns baseleadsxlsx class pandascoreframeDataFrame RangeIndex 55038 entries 0 to 55037 Data columns total 24 columns Column NonNull Count Dtype 0 CodEmp 55038 nonnull int64 1 CodCNAE 55038 nonnull int64 2 CNAEs 55038 nonnull object 3 SegmentoCO 55038 nonnull object 4 SegmentoGL 55038 nonnull object 5 SubsegGL 55038 nonnull object 6 CodGr 55038 nonnull int64 7 StatusGr 55038 nonnull object 8 PDPrior 55038 nonnull object 9 FatPres 55038 nonnull int64 10 TitDevs 55038 nonnull int64 11 Porte 55038 nonnull object 12 Situação 55038 nonnull object 13 NívelAtiv 55038 nonnull object 14 RiscoInad 55038 nonnull object 15 CNAEs Secundários 55038 nonnull object 16 Cidade 55038 nonnull object 17 Estado 55038 nonnull object 18 Microregião 55032 nonnull object 19 Mesoregião 55032 nonnull object 20 QuantFuncionarios 54858 nonnull float64 21 Natureza Jurídica 55038 nonnull int64 22 Exportador 9271 nonnull object 23 Importador 11968 nonnull object dtypes float641 int646 object17 memory usage 101 MB None CNAEs CodEmp CodCNAE 0 100000166 4110700 4110700 Incorporação de empreendimentos imob 1 100000172 7112000 7112000 Serviços de engenharia 2 100000424 7311400 7311400 Agências de publicidade SegmentoCO SegmentoGL SubsegGL CodGr 0 ENGENHARIACONSTRUÇÃO CONSTRUCAO E PROJETOS INCORPORADORA 0 1 SERVIÇOS SERVICOS ENGENHARIA 0 2 SERVIÇOS SERVICOS MARKETING 0 StatusGr PDPrior FatPres RiscoInad 0 0 SI 12125000 Muito baixo 1 0 SI 22400000 Muito baixo 2 0 SI 12125000 Muito baixo CNAEs Secundários Cidade 0 41204005223100646200068102036822600 Brasilia 1 8020001771100077390997020400731900462023 Sao Bernardo Do Campo 2 Sao Paulo Estado Microregião Mesoregião QuantFuncionarios 0 DF Brasília Distrito Federal 1170 1 SP São Paulo Metropolitana de São Paulo 500 2 SP São Paulo Metropolitana de São Paulo 760 Natureza Jurídica Exportador Importador 0 1 NaN NaN 1 1 NaN NaN 2 1 NaN NaN 3 rows x 24 columns baseleadsokxlsx class pandascoreframeDataFrame RangeIndex 1017 entries 0 to 1016 Data columns total 25 columns Column NonNull Count Dtype 0 4693100109610046184018292000469150046923 Sorocaba SP 1 Sao Paulo SP 2 3299005174190218130991731100749019946427 Blumenau SC Microregião Mesoregião QuantFuncionarios 0 Sorocaba Macro Metropolitana Paulista 2760 1 São Paulo Metropolitana de São Paulo 2710 2 Blumenau Vale do Itajaí 7670 Natureza Jurídica Exportador Importador 0 1 NaN Sim 1 1 NaN NaN 2 1 Sim Sim 3 rows x 25 columns Usar a base principal exemplo baseleadsokxlsx df dataframesbaseleadsokxlsx Visualizar resumo para confirmar printdfinfo printdfhead class pandascoreframeDataFrame RangeIndex 1017 entries 0 to 1016 Data columns total 25 columns Column NonNull Count Dtype 0 CodEmp 1017 nonnull int64 1 CodCNAE 1017 nonnull int64 2 CNAEs 1017 nonnull object 3 SegmentoCO 1017 nonnull object 4 SegmentoGL 1017 nonnull object 5 SubsegGL 1017 nonnull object 6 CodGr 1017 nonnull int64 7 StatusGr 1017 nonnull object 8 Target 1017 nonnull int64 9 PDPrior 1017 nonnull object 10 FatPres 1017 nonnull int64 11 TitDevs 1017 nonnull int64 12 Porte 1017 nonnull object 13 Situação 1017 nonnull object 14 NívelAtiv 1017 nonnull object 15 RiscoInad 1017 nonnull object 16 CNAEs Secundários 1017 nonnull object 17 Cidade 1017 nonnull object 18 Estado 1017 nonnull object 19 Microregião 1017 nonnull object 20 Mesoregião 1017 nonnull object 21 QuantFuncionarios 1016 nonnull float64 22 Natureza Jurídica 1017 nonnull int64 23 Exportador 407 nonnull object 24 Importador 493 nonnull object dtypes float641 int647 object17 memory usage 1988 KB None CNAEs CodEmp CodCNAE 0 100026910 1099699 1099699 Fabricação de outros produtos aliment 1 100028986 4329103 4329103 Instalação manutenção e reparação d 2 100056633 1414200 1414200 Fabricação de acessórios do vestuári 3 100074569 1122403 1122403 Fabricação de refrescos xaropes e p 4 100080671 1042200 1042200 Fabricação de óleos vegetais refinad SegmentoCO SegmentoGL SubsegGL CodGr 0 ALIMENTOSBEBIDAS ALIMENTOSBEBIDAS MANUFATURA 680 1 ENGENHARIACONSTRUÇÃO CONSTRUCAO E PROJETOS INSTALACAO 29 2 BENS DE CONSUMO TEXTIL E VESTUARIO MANUFATURA 1432 3 ALIMENTOSBEBIDAS ALIMENTOSBEBIDAS MANUFATURA 1503 4 ALIMENTOSBEBIDAS ALIMENTOSBEBIDAS MANUFATURA 1124 StatusGr Target PDPrior RiscoInad 0 INATIVO CHURN 0 2023 Baixo 1 ATIVO 1 2023 Muito baixo 2 INATIVO 0 2023 Muito baixo 3 ATIVO 1 2023 Muito baixo 4 ATIVO 1 2023 Muito baixo CNAEs Secundários Cidade Estado 0 4693100109610046184018292000469150046923 Sorocaba SP 1 Sao Paulo SP 2 3299005174190218130991731100749019946427 Blumenau SC 3 1033302109969911224021122499 Rio De Janeiro RJ 4 1415011041400106430010651011065102106510 Itumbiara GO Microregião Mesoregião QuantFuncionarios 0 Sorocaba Macro Metropolitana Paulista 2760 1 São Paulo Metropolitana de São Paulo 2710 2 Blumenau Vale do Itajaí 7670 3 Rio de Janeiro Metropolitana do Rio de Janeiro 2630 4 Meia Ponte Sul Goiano 2210 Natureza Jurídica Exportador Importador 0 1 NaN Sim 1 1 NaN NaN 2 1 Sim Sim 3 1 Sim Sim 4 1 Sim Sim 5 rows x 25 columns printdfcolumnstolist CodEmp CodCNAE CNAEs SegmentoCO SegmentoGL SubsegGL CodGr StatusGr Target PDPrior FatPres TitDevs Porte Situação NívelAtiv RiscoInad CNAEs Secundários Cidade Estado Microregião Mesoregião QuantFuncionarios Natureza Jurídica Exportador Importador Escolher features numéricas principais features FatPres QuantFuncionarios ajuste conforme os nomes exatos Remover linhas com valores ausentes nessas colunas dfclean dfdropnasubsetfeatures printfLinhas após remoção de nulos dfcleanshape Linhas após remoção de nulos 1016 25 Padronizar os dados scaler StandardScaler Xscaled scalerfittransformdfcleanfeatures Método do cotovelo inertia K range1 10 for k in K kmeans KMeansnclustersk randomstate42 kmeansfitXscaled inertiaappendkmeansinertia pltplotK inertia bx pltxlabelNúmero de Clusters pltylabelInertia plttitleMétodo do Cotovelo pltshow Silhouette Score opcional for k in range2 10 kmeans KMeansnclustersk randomstate42 labels kmeansfitpredictXscaled score silhouettescoreXscaled labels printfSilhouette Score para kk score4f Silhouette Score para k2 09641 Silhouette Score para k3 06453 Silhouette Score para k4 07280 Silhouette Score para k5 07616 Silhouette Score para k6 07602 Silhouette Score para k7 07618 Silhouette Score para k8 07721 Silhouette Score para k9 06502 Por exemplo 3 clusters kmeans KMeansnclusters3 randomstate42 dfcleanCluster kmeansfitpredictXscaled printdfcleanClustervaluecounts Cluster 2 546 0 468 1 2 Name count dtype int64 ipythoninput1511134421593 SettingWithCopyWarning A value is trying to be set on a copy of a slice from a DataFrame Try using locrowindexercolindexer value instead See the caveats in the documentation httpspandaspydataorgpandasdocsstableuserguideindexinghtmlreturningaviewversusacopy dfcleanCluster kmeansfitpredictXscaled snsscatterplot xdfcleanFatPres ydfcleanQuantFuncionarios huedfcleanCluster paletteSet1 plttitleClusters pltshow Se quiser carregar cluster0csv dfoldcluster dataframescluster0csv Ver exemplo de comparação printdfoldclusterhead CNAEs CodEmp CodCNAE 0 100022048 5911199 5911199 Atividades de produção cinematográfi 1 100022630 5920100 5920100 Atividades de gravação de som e de e 2 100060378 4930202 4930202 Transporte rodoviário de carga exce 3 100075032 7112000 7112000 Serviços de engenharia 4 100081993 729404 0729404 Extração de minérios de cobre chumb SegmentoCO SegmentoGL SubsegGL CodGr 0 COMUNICAÇÃO SERVICOS COMUNICACAO 0 00 1 COMUNICAÇÃO SERVICOS COMUNICACAO 00 2 LOGISTICATRANSPORTE LOGISTICA TRANSPORTADOR 00 3 SERVIÇOS SERVICOS ENGENHARIA 00 4 MINERADORA MANUFATURA EXTRATIVISTA E BENEFICIAMENTO 00 StatusGr PDPrior FatPres 0 0 SI 224000000 1 0 SI 121250000 2 0 SI 172300000 3 0 SI 121250000 4 0 SI 172300000 CNAEs Secundários Cidade 0 591110259138005920100 Sao Paulo 1 464940759111997311400 Sao Paulo 2 773909946630007820500773220149230024330404 Sao Joao Da Barra 3 Rio De Janeiro 4 990402 Tunas Do Parana Estado Microregião Mesoregião 0 SP São Paulo Metropolitana de São Paulo 1 SP São Paulo Metropolitana de São Paulo 2 RJ Campos dos Goytacazes Norte Fluminense 3 RJ Rio de Janeiro Metropolitana do Rio de Janeiro 4 PR Curitiba Metropolitana de Curitiba QuantFuncionarios Natureza Jurídica Exportador Importador cluster 0 820 10 Não Não 00 1 570 10 Não Não 00 2 510 10 Não Não 00 3 190 10 Não Não 00 4 930 10 Não Não 00 5 rows x 25 columns Adicionar coluna log do faturamento import numpy as np dfcleanlogFatPres nplog1pdfcleanFatPres log1 x evita log0 Verificar nova feature dfcleanFatPres logFatPreshead ipythoninput1836515223294 SettingWithCopyWarning A value is trying to be set on a copy of a slice from a DataFrame Try using locrowindexercolindexer value instead See the caveats in the documentation httpspandaspydataorgpandasdocsstableuserguideindexinghtmlreturningaviewversusacopy dfcleanlogFatPres nplog1pdfcleanFatPres log1 x evita log0 summary name dfcleanFatPres logFatPres rows 5 fields column FatPres properties dtype number std 744129731 min 56700000 max 1500000000 numuniquevalues 3 samples 236000000 1500000000 56700000 semantictype description column logFatPres properties dtype number std 14913081035777738 min 17853284786334665 max 2112873094572124 numuniquevalues 3 samples 19279342367227173 2112873094572124 17853284786334665 semantictype description typedataframe features logFatPres QuantFuncionarios Remover nulos deve estar ok Xscaled scalerfittransformdfcleanfeatures Elbow Method com logFatPres inertia K range1 10 for k in K kmeans KMeansnclustersk randomstate42 kmeansfitXscaled inertiaappendkmeansinertia pltplotK inertia bx pltxlabelNúmero de Clusters pltylabelInertia plttitleMétodo do Cotovelo logFatPres pltshow Silhouette Score for k in range2 10 kmeans KMeansnclustersk randomstate42 labels kmeansfitpredictXscaled score silhouettescoreXscaled labels printfSilhouette Score para kk score4f Método do Cotovelo logFatPres Silhouette Score para k2 04400 Silhouette Score para k3 04714 Silhouette Score para k4 04070 Silhouette Score para k5 04442 Silhouette Score para k6 04253 Silhouette Score para k7 04320 Silhouette Score para k8 04527 Silhouette Score para k9 04677 Novo clustering usando logFatPres kmeans KMeansnclusters5 randomstate42 dfcleanCluster kmeansfitpredictXscaled ipythoninput2133513388583 SettingWithCopyWarning A value is trying to be set on a copy of a slice from a DataFrame Try using locrowindexercolindexer value instead See the caveats in the documentation httpspandaspydataorgpandasdocsstableuserguideindexinghtmlreturningaviewversusacopy dfcleanCluster kmeansfitpredictXscaled snsscatterplot xdfcleanlogFatPres ydfcleanQuantFuncionarios huedfcleanCluster paletteSet1 plttitleClusters logFatPres pltshow Ver correlação entre variáveis numéricas corr dfcleanFatPres QuantFuncionarioscorr printcorr snsheatmapcorr annotTrue cmapcoolwarm plttitleMatriz de Correlação pltshow FatPres QuantFuncionarios FatPres 1000000 0043068 QuantFuncionarios 0043068 1000000 Matriz de Correlação 1 0043 0043 1 Supondo que LTV seja proporcional ao faturamento simplificação dfcleanLTV dfcleanFatPres 12 exemplo supõe que LTV 120 do faturamento Simular um CAC aleatório dentro de uma faixa plausível nprandomseed42 dfcleanCAC nprandomrandint1000 5000 sizelendfclean Ver exemplo printdfcleanFatPres LTV CAChead FatPres LTV CAC 0 236000000 2832000e08 4174 1 1500000000 1800000e09 4507 2 56700000 6804000e07 1860 3 1500000000 1800000e09 2294 4 1500000000 1800000e09 2130 ipythoninput2424280727462 SettingWithCopyWarning A value is trying to be set on a copy of a slice from a DataFrame Try using locrowindexercolindexer value instead See the caveats in the documentation httpspandaspydataorgpandasdocsstableuserguideindexinghtmlreturningaviewversusacopy dfcleanLTV dfcleanFatPres 12 exemplo supõe que LTV 120 do faturamento ipythoninput2424280727466 SettingWithCopyWarning A value is trying to be set on a copy of a slice from a DataFrame Try using locrowindexercolindexer value instead See the caveats in the documentation httpspandaspydataorgpandasdocsstableuserguideindexinghtmlreturningaviewversusacopy dfcleanCAC nprandomrandint1000 5000 sizelendfclean Agrupar por cluster clustersummary dfcleangroupbyClusteragg FatPres mean LTV mean CAC mean QuantFuncionarios mean resetindex printclustersummary Cluster FatPres LTV CAC QuantFuncionarios 0 0 6302044e09 7562453e09 3078437037 232955556 1 1 3461042e07 4153250e07 3050599424 83288184 2 2 3383904e07 4060685e07 2882470199 283827815 3 3 1562812e08 1875374e08 2813560000 1082160000 4 4 1962031e08 2354437e08 3059902235 203025140 snsscatterplot dataclustersummary xCAC yLTV hueCluster paletteSet1 s100 plttitleCAC vs LTV por Cluster pltshow CAC vs LTV por Cluster Exemplo criar coluna de pontuação de desempenho simulada nprandomseed42 dfcleanDesempenhoCliente nprandomrandint1 10 sizelendfclean printdfcleanFatPres QuantFuncionarios DesempenhoClientehead FatPres QuantFuncionarios DesempenhoCliente 0 236000000 2760 7 1 1500000000 2710 4 2 56700000 7670 8 3 1500000000 2630 5 4 1500000000 2210 7 ipythoninput2716159578383 SettingWithCopyWarning A value is trying to be set on a copy of a slice from a DataFrame Try using locrowindexercolindexer value instead See the caveats in the documentation httpspandaspydataorgpandasdocsstableuserguideindexinghtmlreturningaviewversusacopy dfcleanDesempenhoCliente nprandomrandint1 10 sizelendfclean

Envie sua pergunta para a IA e receba a resposta na hora

Recomendado para você

Programação

210

Programação

Linguagens de Programação

FMU

Questionario Indisponivel N2 A5 23-29 Jun 2022

1

Questionario Indisponivel N2 A5 23-29 Jun 2022

Linguagens de Programação

FMU

Lógica e Programação

36

Lógica e Programação

Linguagens de Programação

FMU

Programação em C

3

Programação em C

Linguagens de Programação

FMU

Resolver Exercicio

13

Resolver Exercicio

Linguagens de Programação

FMU

Programação

202

Programação

Linguagens de Programação

FMU

Linguagem de Programação

215

Linguagem de Programação

Linguagens de Programação

FMU

PIM II Analise e Desenvolvimento de Sistema Coworking - UNIP

16

PIM II Analise e Desenvolvimento de Sistema Coworking - UNIP

Linguagens de Programação

FMU

Programação

218

Programação

Linguagens de Programação

FMU

Exercício Phyton

11

Exercício Phyton

Linguagens de Programação

FMU

Texto de pré-visualização

UNIVERSIDADE FEDERAL DO PARANÁ METODOLOGIA DE SEGMENTAÇÃO DE CLIENTES B2B ORIENTADA A LUCRATIVIDADE E OS EFEITOS NO LIFE TIME VALUE LTV CURITIBA 2025 METODOLOGIA DE SEGMENTAÇÃO DE CLIENTES B2B ORIENTADA A LUCRATIVIDADE E OS EFEITOS DO LIFE TIME VALUE LVT Dissertação de Mestrado apresentada ao Programa de PósGraduação em Gestão de Organizações Liderança e Decisão PPGOLD Universidade Federal do Paraná como requisito parcial à obtenção do título de Mestre Orientador Cassius Tadeu Scarpin CURITIBA 2025 Ficha Catalográfica METODOLOGIA DE SEGMENTAÇÃO DE CLIENTES B2B ORIENTADA A LUCRATIVIDADE E OS EFEITOS DO LIFE TIME VALUE LVT Dissertação de Mestrado apresentada ao Programa de PósGraduação em Gestão de Organizações Liderança e Decisão PPGOLD Universidade Federal do Paraná como requisito parcial à obtenção do título de Mestre Aprovado em de de 2025 Prof Cassius Tadeu Scarpin Orientador Professor do Programa de PósGraduação da Universidade Federal do Paraná Prof Universidade Prof Universidade 2025 Aos pilares da minha vida minhas queridas filhas e esposo Manoella Martinna e Romério cujo amor e alegria diários são minha fonte de inspiração e força ao meu orientador professor Cassius pelo encorajamento nos momentos difíceis e aos amigos acolhedores que agiram em cada momento de dúvida e celebração Cada um de vocês foi peça chave nessa conquista pela importância do amor do apoio e da amizade Dedico esta dissertação a vocês com toda a minha gratidão AGRADECIMENTOS Em geral aquele que ocupa primeiro o campo de batalha e aguarda seu inimigo está à vontade quem chega depois à cena e se apressa a lutar está cansado Sun Tzu Mintzberg et al 2010 RESUMO As organizações atuando em mercados cada vez mais limitados ou saturados enfrentam constantemente o desafio de fidelizar seus clientes e têm um processo de venda complexo para a progressão do negócio seja na expansão das frentes já existentes ou na criação de novas Essas organizações buscam impedir que seus clientes existentes se tornem inativos enquanto orientam na priorização de novas empresas a serem prospectadas alocando recursos em seus orçamentos para sustentar o portfólio e atender a requisitos estratégicos Esta pesquisa visa realizar um estudo analítico sobre a importância da metodologia de segmentação de clientes orientada à lucratividade e seus efeitos no Lifetime Value LTV Tratase da aplicação da descoberta de conhecimento em bancos de dados KDD Knowledge Discovery in Databases Como limitações o estudo contemplará o cenário de empresas do segmento financeiro nacional dependentes do fator de inadimplência e atuando no modelo B2B Business to Business utilizando informações públicas relacionadas ao cadastro de pessoa jurídica Por meio dos resultados obtidos verificase que a metodologia segmentada de clientes orientada ao LTV contribui para as inferências sobre investimentos estruturais na formação das metas de conversão dos negócios no tempo de vida dos clientes e na definição de projetos comerciais como expansão ou abertura de novas frentes de campanhas de marketing Isso auxilia na compreensão dos limites das expectativas sobre o grau de assertividade das projeções O método portanto abre proposições relacionadas à melhoria nas variáveis CAC Customer Acquisition Cost e Churn que compõem a formulação matemática do LTV Diante disso este trabalho propõe uma metodologia de segmentação de clientes baseada em variáveis de lucratividade com o uso de algoritmos de aprendizado de máquina visando aumentar a assertividade da priorização comercial e apoiar a tomada de decisão estratégica com base em dados Para que se obtenha um maior resultado em retenção de clientes alocação eficiente de recursos e previsão do comportamento futuro dos leads e clientes atuais a proposta busca integrar técnicas de clusterização análise fatorial e modelos preditivos alinhadas ao processo de KDD possibilitando inferências mais precisas e personalizadas sobre o valor de cada cliente ao longo do tempo Palavraschave Estratégia Comercial Inteligência de Mercado Lucratividade eou Indicadores de Lucratividade Filtros de Colaborativos Cluster e Negócios ABSTRACT Organizations operating in increasingly constrained or saturated markets constantly face the challenge of retaining their customers and managing a complex sales process necessary for business progression whether by expanding existing fronts or creating new ones These organizations strive to prevent current customers from becoming inactive while prioritizing new prospects allocating budget resources to sustain the portfolio and meet strategic requirements This research aims to conduct an analytical study on the importance of profitabilityoriented customer segmentation methodology and its effects on Lifetime Value LTV It involves the application of Knowledge Discovery in Databases KDD As a limitation the study will focus on companies in the national financial sector that are dependent on default rates and operate under the B2B Business to Business model using publicly available data related to corporate registration The results show that a segmented customer approach oriented toward LTV contributes to inferences about structural investments setting business conversion goals determining customer lifetime and defining commercial projects such as expansion or the launch of new marketing campaigns This helps to better understand the limitations of expectations regarding the accuracy of projections Therefore the method introduces propositions aimed at improving variables such as CAC Customer Acquisition Cost and Churn which are part of the mathematical formulation of LTV In this context the study proposes a customer segmentation methodology based on profitability variables using machine learning algorithms to increase the accuracy of commercial prioritization and support data driven strategic decisionmaking To achieve better results in customer retention efficient resource allocation and forecasting future behavior of leads and current clients the proposed approach integrates clustering techniques factor analysis and predictive models aligned with the KDD process enabling more precise and personalized insights into each customers lifetime value Keywords Commercial Strategy Market Intelligence Profitability andor Profitability Indicators Collaborative Filtering Clustering Business LISTA DE SIGLAS E TERMOS EM INGLÊS SIGLA Descrição Explicação ACO Ant Colony Optimization é um algoritmo de otimização baseado na forma como as formigas encontram os caminhos mais curtos entre seu ninho e uma fonte de alimento AG Algoritmos Genéricos são métodos de otimização inspirados nos princípios da evolução natural e genética Eles são usados para encontrar soluções aproximadas para problemas de otimização complexos que podem ser difíceis de resolver por métodos convencionais ANOVA Analysis of Variance é uma técnica estatística utilizada para comparar as médias de três ou mais segmentos determinando diferenças estatisticamente significativas entre essas médias AntMiner é um algoritmo de mineração de dados inspirado no comportamento das colônias de formigas especificamente projetado para a tarefa de descoberta de regras de classificação em grandes conjuntos de dados Arrays são estruturas que guardam uma coleção de elementos de dados geralmente do mesmo tipo em uma sequência de memória Attention Models são mecanismos utilizados em redes neurais que permitem que a rede preste atenção a partes específicas de uma entrada durante a previsão ou a execução de uma tarefa B2B Businessto Business referese a transações comerciais realizadas entre empresas B2C Businessto consumer referese a um modelo de negócios no qual as empresas vendem produtos ou serviços diretamente aos consumidores finais Backbone é um termo usado em redes de computadores para se referir à principal infraestrutura que interliga diferentes redes locais e segmentos de rede proporcionando conectividade e transporte de dados de alta velocidade entre essas redes Big Data referese a empresas do segmento de tecnologia que agrupam e correlacionam dados disponíveis por instituições públicas ou privadas para uso empresarial Bin é uma categoria ou intervalo específico dentro do qual valores contínuos são agrupados como parte do processo de binning Binning é uma técnica de préprocessamento de dados que agrupa valores contínuos em um número menor de categorias ou bins baseandose em critérios como largura de intervalo ou frequência de observações para suavizar variações nos dados e facilitar análises posteriores Boxplot também conhecido como diagrama de caixa ou gráfico de caixa e bigodes é uma representação gráfica que resume a distribuição de um conjunto de dados numéricos através de cinco números principais o valor mínimo o primeiro quartil Q1 a mediana Q2 o terceiro quartil Q3 e o valor máximo CAC Customer Acquisition Cost referese ao custo total incorrido por uma empresa para adquirir um novo cliente CDAF CrossDomain Adaptive Framework é um modelo ou estrutura adaptativa que facilita o aprendizado e a transferência de conhecimento entre diferentes domínios CEO Chief Executive Officer o cargo de maior autoridade dentro de uma empresa ou organização Churn ou taxa de cancelamento referese à proporção de clientes ou empresas que deixam de usar os serviços ou produtos da empresa Cliente indivíduo ou organização que já realizou uma compra ou utiliza os serviços da empresa e por isso já contribuem diretamente para o lucro da empresa Cluster referese a um grupo de objetos ou pontos de dados que são semelhantes entre si e são diferentes dos objetos em outros grupos Clusterização ou clustering é um método de análise de dados utilizado para agrupar um conjunto de objetos de tal forma que objetos semelhantes sejam colocados no mesmo grupo ou cluster CRM Customer Relationship Management é a gestão empresarial integrada para analisar interações com clientes e dados ao longo do ciclo de vida dele CSV CommaSeparated Values é um modelo de arquivo utilizado para guardar dados em formato de texto simples DataFrames é uma estrutura de dados bidimensional similar a uma tabela utilizada para armazenar dados em formato de linhas e colunas É uma das principais estruturas de dados usadas em bibliotecas de análise de dados como Pandas em Python Data Mining ou mineração de dados o processo de descobrir padrões tendências e informações úteis em grandes conjuntos de dados utilizando técnicas estatísticas matemáticas de inteligência artificial e de aprendizado de máquina DBSCAN DensityBased Spatial Clustering of Applications with Noise é um algoritmo de clusterização popular usado na mineração de dados e aprendizado de máquina Ao contrário de métodos de clusterização baseados em centroides como k means o DBSCAN é particularmente eficaz para identificar clusters de formas arbitrárias e para lidar com outliers Decision Tree é um algoritmo de aprendizado supervisionado amplamente utilizado tanto para problemas de classificação quanto de regressão Ela representa um modelo preditivo que mapeia observações sobre um item para conclusões sobre o valor alvo do item DNN Deep Neural Network ou Rede Neural Profunda é uma rede neural artificial que possui múltiplas camadas desde a camada de entrada e a camada de saída Elbow ou método do cotovelo é uma técnica heurística utilizada para determinar o número ótimo de clusters ou agrupamentos em um algoritmo de clustering como o Kmeans encontrando um ponto de inflexão o cotovelo no gráfico FeatureBased referese a uma abordagem no campo do aprendizado de máquina e mineração de dados onde o foco está nas características dos dados F2P Freetoplay referese a um modelo de negócios usado principalmente na indústria de jogos eletrônicos onde os jogadores podem acessar o jogo gratuitamente GINI coeficiente de também conhecido simplesmente como Gini é uma medida de dispersão ou desigualdade frequentemente usada em economia para quantificar a desigualdade de renda ou riqueza dentro de uma população Heatmap mapa de calor é uma representação gráfica de dados onde valores individuais contidos em uma matriz são representados por cores Heurística estratégia metodológica que seleciona e utiliza variáveis com base na experiência intuição ou práticas comprovadas Higienização Processo que envolve a remoção de duplicatas correção de erros e atualização dos dados para assegurar a precisão e a utilidade das informações evitando erros e inconsistências Insight compreensão profunda e estratégica orientando decisões de alto impacto que direcionam a empresa para o crescimento e sustentabilidade a longo prazo Interquartil é uma medida estatística da dispersão ou variabilidade de um conjunto de dados É a diferença entre o 3º quartil Q3 e o 1º quartil Q1 de um total de informações representando a faixa dos 50 centrais das informações IQR Interquartil range também conhecido como amplitude interquartil é uma medida de dispersão estatística que descreve a extensão dos valores centrais de um conjunto de dados Especificamente o IQR é a diferença entre o terceiro quartil Q3 e o primeiro quartil Q1 e representa a faixa onde se encontra os 50 centrais dos dados KDD Knowledge Discovery in Databases processo de identificar padrões atuais e novos potencialmente úteis em um grande conjunto de dados Kmeans é um algoritmo de aprendizado de máquina não supervisionado usado para resolver problemas de clustering ou agrupamentos de objetos Lead é um potencial cliente indivíduo ou empresa que demonstra interesse nos produtos ou serviços da empresa mas ainda não realizou uma compra e portanto representam potenciais fontes de lucro no futuro Lifespan Customer Lifecycle ou ciclo de vida do cliente referese ao período total durante o qual um cliente permanece ativo e gera receita para uma empresa Logit multinomial é um modelo estatístico usado para predição e classificação em situações na qual a variável dependente é categorizada com mais de duas categorias LTR Lifetime Revenue é uma métrica usada para quantificar a receita total que um cliente gera durante todo o período em que mantém um relacionamento com uma empresa LTV Lifetime Value é um conceito de marketing usado para estimar o valor total que uma empresa pode esperar receber de um cliente ao longo de todo o seu relacionamento com essa empresa Marketing conjunto de práticas e processos utilizados por organizações para promover vender produtos ou serviços Matplotlib é uma biblioteca de visualização de dados em Python que permite criar gráficos estáticos e interativos Missingno é uma biblioteca em Python projetada para visualizar e diagnosticar valores ausentes em conjuntos de dados NumPy Numerical Python é uma biblioteca de código aberto para a linguagem de programação Python que fornece para suporte para arrays e matrizes multidimensionais juntamente com uma coleção de funções matemáticas de alto nível para operar esses arrays Outlier é um ponto de dados que difere significativamente dos outros pontos de um conjunto de dados geralmente a maior Pandas é uma biblioteca para análise e manipulação de dados em Python Pipeline é um termo amplamente utilizado em tecnologia e ciência de dados que se refere a uma série de etapas sequenciais pelas quais os dados ou tarefas passam desde o início até a conclusão PnP PlugandPlay é um termo usado para descrever dispositivos de hardware ou software que são projetados para funcionar com um mínimo de configuração e intervenção do usuário Prospects clientes ou empresas que tem potencial para se tornarem clientes da empresa no futuro Python é uma linguagem de programação de alto nível amplamente utilizada que oferece uma ampla biblioteca padrão facilitando a extensão de sua funcionalidade para praticamente qualquer tarefa Recall também conhecido como sensibilidade ou taxa de verdadeiros positivos é uma métrica de desempenho utilizada na avaliação de modelos de classificação Ele mede a capacidade do modelo de identificar corretamente todas as ocorrências positivas verdadeiros positivos dentro do conjunto de dados RF Randon Forest é um algoritmo de aprendizado em conjunto usado tanto para classificação quanto para regressão RNA Redes Neurais são algoritmos de aprendizado de máquina Artificiais com funcionamento similar ao cérebro humano São compostas por unidades interligadas chamadas neurônios artificiais organizadas em camadas As RNAs são usadas para uma variedade de tarefas incluindo classificação regressão e reconhecimento de padrões RNN Recurrent Neural Network ou rede neural recorrente é um tipo de rede neural artificial projetada para reconhecer padrões em sequências de dados como séries temporais texto ou áudio Scikitlearn é uma biblioteca de código aberto para aprendizado de máquina em Python Ela oferece uma vasta gama de ferramentas eficientes e fáceis de usar para mineração de dados e análise de dados Seaborn é uma biblioteca de visualização de dados em Python com base no Matplotlib Ela fornece interface de alto nível para desenho de gráficos estatísticos informativos Seq2Seq Sequenceto Sequence Learning é uma abordagem de aprendizado profundo que mapea uma sequência de entrada para uma sequência de saída frequentemente utilizada em tarefas onde a saída não tem a mesma duração que a entrada Silhouette é uma técnica de avaliação de clusterização que mede a qualidade de uma segmentação de dados Ela quantifica o quão bem cada ponto de dados foi agrupado comparando a coesão dentro do cluster e a separação entre clusters SQL Structured Query Language é uma linguagem de programação útil para estudos das informações em bancos de dados relacionais SSE Sum of Squared Errors Soma dos Erros Quadráticos Subplot é um termo utilizado em visualização de dados para se referir a múltiplos gráficos ou figuras exibidas em uma única tela ou página organizados em uma grade Testes T são testes estatísticos utilizados para comparar as médias de dois grupos e determinar se as diferenças observadas entre as médias são estatisticamente significativas TIC Tecnologia da Informação e Comunicação referemse ao conjunto de recursos tecnológicos e de comunicação utilizados para a criação armazenamento processamento transmissão e disseminação de informações ZILN ZeroInflated Lognormal é um modelo estatístico utilizado para lidar com dados que possuem uma alta proporção de zeros juntamente com valores contínuos que seguem uma distribuição lognormal ÍNDICE DE FIGURAS Figura 1 Uma visão geral das etapas que compõem o processo KDD23 Figura 2 Boxplot32 Figura 3 Exemplificação Gráfica Elbow41 Figura 4 Proposta de segmentação de clientes baseado no valor ao longo da sua vida e na sua lealdade à marca67 SUMÁRIO 1 INTRODUÇÃO 11 Descrição do Problema 12 Objetivos 121 Objetivo Geral 122 Objetivos Específicos 13 Justificativa do Trabalho 14 Limitações do Trabalho 15 Estrutura do Trabalho 2 REVISÃO DA LITERATURA 21 Processo de Knowledge Discovery in Databases KDD 211 Tratamento de Dados 212 Transformação de Dados 213 Data Mining para Classificação 22 Segmentação de Clientes 221 Pureza e Uniformidade dos Segmentos 222 Diferenciação entre Segmentos 223 Matriz de Confusão 224 Testes de Hipóteses 225 Análise de Correlação entre Segmentos e Variáveis de Negócio 226 Interpretação dos Resultados e Indicadores 227 CAC e LTV 23 Trabalhos Correlatos 3 METODOLOGIA 31 Tipo de Pesquisa 32 Procedimentos Metodológicos 33 Ferramentas e Softwares 34 Limitações Metodológicas 4 ANÁLISE DOS RESULTADOS 5 DISCUSSÕES E CONSIDERAÇÕES FINAIS CONCLUSÃO REFERÊNCIAS ANEXOS Obs Em andamento o trabalho está ganhando forma obrigado 1 INTRODUÇÃO No atual cenário corporativo empresas inseridas em mercados saturados enfrentam desafios significativos para manter sua base de clientes e expandir suas operações comerciais Nesse contexto é importante destacar que tais organizações buscam evitar a inatividade de seus clientes atuais e para isso alocam recursos em seus orçamentos com o intuito de sustentar o portfólio e viabilizar campanhas e metas estratégicas orientadas por objetivos heurísticos do planejamento de longo prazo É nesse ambiente competitivo que surgem metodologias e técnicas com o propósito de auxiliar gestores na identificação das reais necessidades de seus clientes e potenciais clientes O termo prospects ou potenciais clientes referese a empresas ou indivíduos que ainda não realizaram uma compra mas que apresentam perfil compatível com o públicoalvo da organização A partir daqui este termo em inglês será mantido no decorrer do texto por ser amplamente utilizado no meio empresarial Essas técnicas visam descobrir padrões comportamentais e desenvolver ofertas direcionadas que atendam simultaneamente às expectativas do cliente e aos objetivos de lucratividade da empresa Entre essas ferramentas destacase o LTV Lifetime Value ou valor do tempo de vida do cliente Segundo Olnén 2022 o LTV corresponde ao valor que um cliente gera para a empresa ao longo de seu relacionamento sendo uma métrica estratégica capaz de monitorar e mensurar o sucesso dos negócios De acordo com Wu et al 2023 a aplicação do LTV permite aumentar a margem de lucro ao orientar a criação de serviços personalizados e ações proativas que contribuem para a retenção do cliente além de possibilitar o gerenciamento de perfis com baixa geração de receita e o planejamento de oportunidades futuras com base em seu valor acumulado Dessa forma esta pesquisa se propõe a realizar um estudo baseado em dados públicos de mercado obtidos a partir de bases de dados amplas comumente referidas como Big Data A proposta metodológica foi desenvolvida pela autora com base em variáveis selecionadas heurística e estrategicamente compatíveis com o produto de interesse geralmente estruturado sob a forma de campanhas de 17 marketing ou perfis definidos do públicoalvo O objetivo é evidenciar a relevância da segmentação de leads potenciais clientes isto é a priorização estratégica da prospecção e do gerenciamento diário da área comercial com foco em rentabilidade Os sistemas de recomendação por sua vez representam uma frente essencial para o incremento das vendas e para o refinamento das estratégias de marketing promovendo tanto a atração quanto a fidelização de clientes A filtragem colaborativa uma das técnicas mais utilizadas nesse contexto vem sendo potencializada por abordagens que integram diferentes métodos analíticos Dentre essas abordagens este estudo propõe a integração entre o processo de Descoberta de Conhecimento em Bancos de Dados Knowledge Discovery in Databases KDD e os sistemas colaborativos de recomendação Ao explorar e interpretar grandes volumes de dados o KDD permite a geração de insights mais profundos e personalizados impactando positivamente na qualidade e precisão das recomendações Conforme Fayyad et al 1996 o KDD assume papel estratégico ao transformar a forma como os dados são utilizados para gerar conhecimento principalmente quando aplicados em sistemas voltados ao apoio à decisão Os autores ressaltam que o KDD contribui de maneira decisiva para a descoberta de padrões e informações relevantes reforçando a capacidade das organizações de tomar decisões com base em dados robustos e bem estruturados 11 DESCRIÇÃO DO PROBLEMA O processo de tomada de decisão do planejamento comercial baseiase em duas etapas Uma etapa tática e outra estratégica Na etapa tática a racionalidade predomina sobre a heurística com indicadores e cálculos numéricos predominando as análises não descartando tímidas inferências devido a acontecimentos ou exceções causadas por políticas ou ocorrências de outliers ou seja ocorrências destoantes que são relevantes ao planejamento Na etapa estratégica diferente da etapa tática os gestores de alto escalão contribuem em maior parte com inferências da sua experiência seu conhecimento do mercado e das percepções comumente denominadas insights necessários para o crescimento planejado do negócio 17 Desta forma a presente pesquisa está relacionada principalmente à etapa tática Visa gerar uma metodologia que define quais os leads e clientes do universo mapeado previamente necessitam de priorização de ações de relacionamento ou prospecção Em decorrência da metodologia proposta a ser apresentada no decorrer do trabalho as contribuições da aplicação de um método de segmentação de clientes com adoção de variáveis de lucratividade para alavancagem da estratégia comercial tornase uma possibilidade real e prática para aumentar a produtividade da área comercial Previsões fundamentadas em indicadores de lucratividade como o LTV não apenas ajudam o planejamento financeiro da empresa mas também contribuem para melhores decisões de marketing e orientam o gerenciamento de relacionamento com o cliente CRM 12 OBJETIVOS 121 Objetivo Geral Desenvolver uma metodologia de segmentação de clientes que permita a identificação de características específicas de cada grupo formado bem como a definição de variáveis relacionadas à lucratividade com foco na geração de inferências aplicáveis ao indicador Lifetime Value LTV no contexto da operação comercial 122 Objetivos Específicos Serão explorados os seguintes objetivos específicos Identificar a partir da literatura especializada os principais critérios utilizados na segmentação de leads e clientes no ambiente B2B Analisar o conceito de Lifetime Value LTV e sua utilização como métrica orientadora em estratégias de segmentação de clientes Investigar modelos teóricos de pontuação de leads com base em variáveis relacionadas à rentabilidade e ao ciclo de vida do cliente 19 Revisar os fundamentos do processo de descoberta de conhecimento em bases de dados KDD e suas aplicações na organização e interpretação de dados Examinar à luz de estudos existentes a influência de percepções gerenciais e experiências de mercado na tomada de decisão estratégica em contextos comerciai 13 JUSTIFICATIVA DO TRABALHO A presente dissertação justificase pelo interesse em aprofundar a discussão acadêmica sobre metodologias de segmentação de clientes no contexto B2B com base em métricas de lucratividade como o Lifetime Value LTV A segmentação orientada por valor tem sido destacada em estudos recentes como uma abordagem capaz de subsidiar decisões estratégicas e operacionais na área comercial especialmente em setores que dependem da alocação racional de recursos e da gestão eficiente de portfólios de clientes Wu et al 2023 Wang et al 2019 A análise da literatura aponta que as práticas de segmentação com apoio de algoritmos e modelos preditivos vêm sendo utilizadas como suporte técnico para processos decisórios especialmente quando alinhadas ao processo de descoberta de conhecimento em bases de dados KDD Knowledge Discovery in Databases conforme discutido por Fayyad et al 1996 e Han et al 2011 Além disso há interesse em investigar como variáveis como CAC Customer Acquisition Cost e churn impactam a modelagem do LTV e influenciam a priorização de ações comerciais Nesse contexto a pesquisa propõe a estruturação teórica de uma metodologia que considere a integração entre dados objetivos etapa tática e percepções gerenciais etapa estratégica conforme referenciado por autores como Kanchanapoom e Chongwatpol 2022 Tratase de um estudo de caráter exploratório baseado em fontes secundárias e fundamentado em revisão de literatura especializada que busca contribuir para o debate metodológico sobre segmentação de clientes orientada à rentabilidade no modelo B2B 19 14 LIMITAÇÕES DO TRABALHO Este estudo apresenta algumas limitações que devem ser consideradas no delineamento da proposta metodológica e na análise de seus resultados São elas Amostra de dados secundários a pesquisa se baseia em dados disponíveis publicamente que podem não refletir integralmente as especificidades de determinados setores ou perfis de clientes o que pode restringir a abrangência das conclusões Variabilidade das variáveis utilizadas na segmentação a escolha de variáveis como faturamento número de funcionários ou lucratividade representa um recorte analítico podendo deixar de contemplar outros aspectos relevantes no contexto da segmentação de clientes Complexidade dos modelos analisados embora não se realizem testes empíricos a compreensão de técnicas como clusterização e algoritmos de classificação exige domínio conceitual e técnico o que pode representar uma barreira para a aplicabilidade por profissionais sem formação especializada Influência de fatores externos as dinâmicas de mercado estão sujeitas a variáveis macroeconômicas e institucionais que não são controladas pela pesquisa e que podem interferir na efetividade de modelos baseados em dados históricos Subjetividade dos insights gerenciais a etapa estratégica da segmentação frequentemente pautada por experiências e percepções dos gestores pode variar significativamente entre organizações dificultando a padronização da abordagem proposta Resistência à adoção de novos métodos a introdução de ferramentas baseadas em ciência de dados e aprendizado de máquina no planejamento comercial pode enfrentar obstáculos estruturais ou culturais nas organizações 21 Validade temporal dos dados a rapidez com que se alteram as condições comerciais e os perfis de consumo pode impactar a durabilidade e a aplicabilidade das análises especialmente quando baseadas em dados estáticos ou desatualizados 15 ESTRUTURA DO TRABALHO CAP 1 2 3 4 5 CONCLUSÃO REFERENCIAS ANEXOS 21 2REVISÃO DA LITERATURA 21 PROCESSO DE KNOLEDGE DISCOVERY IN DATABASE KDD A exploração de conhecimento em bancos de dados KDD Knowledge Discovery in Databases é um processo que se dedica à extração de informações valiosas e conhecimento a partir de grandes conjuntos de dados Esse processo abrange diversas etapas críticas desde a seleção e preparação inicial dos dados até a mineração efetiva dos dados em si e a interpretação dos resultados obtidos Han et al 2011 destacam que o processo de KDD envolve a limpeza integração seleção e transformação dos dados antes da aplicação de técnicas de mineração para extrair padrões significativos A relevância do KDD tem crescido juntamente com o aumento na quantidade de dados produzidos e armazenados o que impulsiona a demanda por métodos eficazes para embasar decisões em dados e gerar insights estratégicos No contexto do KDD a precisão dos dados é fundamental Dados imprecisos incompletos ou irrelevantes podem levar a conclusões equivocadas e prejudicar a utilidade dos insights descobertos Assim sendo um componente vital do processo de KDD consiste na preparação preliminar dos dados incluindo atividades como limpeza normalização e transformação HAN et al 2011 Tais técnicas contribuem para assegurar que os dados utilizados na mineração sejam tão precisos e completos quanto possível otimizando dessa forma a qualidade das informações derivadas Segundo Han et al 2011 a qualidade dos dados é crucial para o sucesso da mineração de dados pois a eficácia dos algoritmos de mineração depende diretamente da qualidade dos dados que recebem como entrada Um exemplo prático da aplicação das técnicas de KDD pode ser observado no estudo realizado por Ekstrand et al 2010 que investiga os sistemas colaborativos de recomendação Os autores abordam estratégias de filtragem colaborativa que são fundamentais para compreender as escolhas dos utilizadores e oferecer sugestões personalizadas Este estudo ilustra como o KDD pode ser empregado para aprimorar a exatidão e a pertinência das recomendações em 23 plataformas interativas algo essencial para a experiência do utilizador e para garantia da qualidade da análise Fayyad et al 1996 dizem que o KDD é um campo interdisciplinar focado na extração de informações úteis de grandes conjuntos de dados Os autores detalham que o processo de KDD pode envolver várias etapas incluindo seleção de dados limpeza enriquecimento e transformação de dados além da aplicação de algoritmos de mineração de dados para encontrar padrões significativos Destacam também que a crescente importância do KDD se deve ao aumento do volume de dados disponíveis e portanto é imprescindível a crescente necessidade de métodos eficazes para análise desses dados A compreensão do processo de KDD não apenas revela a complexidade envolvida na manipulação de grandes volumes de dados mas também sublinha a necessidade de uma abordagem estruturada para extrair conhecimento valioso desses dados Como ilustrado na Figura 01 o processo de KDD é composto por uma série de etapas interconectadas que começam com a seleção de dados e seguem por meio da seleção tratamento de dados e transformação deles Essas etapas preparatórias são cruciais para assegurar a qualidade dos dados antes de aplicar algoritmos de mineração de dados A Figura 01 destaca a natureza iterativa do processo KDD mostrando como cada etapa contribui para refinar os dados até que padrões significativos possam ser descobertos e verificados A visualização oferecida pela figura não só esclarece os componentes individuais do processo mas também demonstra como eles estão interligados reforçando a ideia de que o sucesso na mineração de dados depende da sua meticulosa preparação e análise Este fluxo estruturado é essencial para enfrentar o desafio imposto pelo crescente volume de dados Por meio de uma análise cuidadosa as organizações podem transformar uma grande quantidade de dados brutos em insights relevantes e aplicáveis que são críticos para a tomada de decisões informadas e estratégicas Portanto a figura 01 não apenas serve como um mapa visual das etapas do KDD mas também como uma ferramenta fundamental para entender a interdependência dessas etapas no contexto da descoberta de conhecimento em bases de dados Figura 1 Uma visão geral das etapas que compõem o processo KDD 23 Fonte Fayyad et al 1996 211 Tratamento de Dados A etapa de tratamento de dados no processo de exploração de conhecimento em bancos de dados KDD desempenha um papel importante garantindo a confiabilidade e usabilidade dos dados para análises subsequentes Durante essa fase é essencial realizar a identíficação de ruídos resolver inconsistências e preparar os dados adequadamente para permitir que os algoritmos de mineração funcionem com eficácia Segundo Cheng e Chen 2009 o tratamento e o pré processamento são elementoschave para o êxito dos algoritmos de agrupamento utilizados em sistemas de CRM 2111 Eliminando Ruídos e Inconsistências Remover o excesso de informações ruídos e inconsistências representa uma etapa fundamental na preparação dos dados para o processo de Knowledge Discovery in Databases KDD uma vez que dados imprecisos ou com baixa qualidade podem comprometer significativamente os resultados obtidos nas etapas subsequentes de mineração e análise A presença de valores duplicados erros de entrada lacunas ou informações incoerentes tende a distorcer os padrões e correlações descobertos levando a decisões equivocadas e interpretações falhas De acordo com Han Kamber e Pei 2011 o préprocessamento dos dados é composto por diversas técnicas incluindo o preenchimento de valores ausentes a 25 suavização de ruídos a correção de inconsistências a detecção e remoção de outliers além da padronização e transformação de atributos Essas etapas são essenciais para garantir a integridade a completude e a utilidade do conjunto de dados antes de sua exploração analítica Entre os métodos mais comuns de suavização destacamse os filtros de média e mediana que substituem valores individuais por médias ou medianas calculadas a partir de seus vizinhos mais próximos reduzindo assim a variabilidade aleatória Já a suavização por binning agrupa os dados em intervalos bins e ajusta os valores com base em estatísticas internas de cada intervalo promovendo homogeneidade local A suavização por regressão por sua vez ajusta uma função matemática linear ou não linear aos dados permitindo a identificação e atenuação de tendências ou flutuações acentuadas A detecção de outliers é outra etapa crítica pois esses valores atípicos podem interferir negativamente nos resultados dos modelos estatísticos e algoritmos de aprendizado de máquina Métodos estatísticos convencionais baseados em medidas de tendência central e dispersão como média e desvio padrão são frequentemente utilizados para identificar e remover esses pontos anômalos Contudo técnicas mais avançadas como o algoritmo DBSCAN DensityBased Spatial Clustering of Applications with Noise proposto por Ester et al 1996 têm se mostrado eficazes para detectar outliers em grandes volumes de dados multidimensionais pois consideram a densidade local de pontos ao invés de simples critérios globais Além disso inconsistências nos dados muitas vezes resultantes da fusão de diferentes bases de dados erros de digitação ou atualizações mal conduzidas devem ser tratadas por meio de inspeções manuais validações cruzadas e aplicação de regras de integridade baseadas no domínio dos dados Isso inclui a verificação de chaves primárias integridade referencial formatos esperados e padrões semânticos consistentes O uso de ferramentas automatizadas de data cleaning também tem ganhado espaço especialmente em contextos que envolvem grandes volumes de dados e necessidade de escalabilidade Complementando esse panorama Do e Batzoglou 2008 em estudos voltados para bioinformática destacam a importância da normalização e padronização como elementos fundamentais para garantir a comparabilidade entre 25 conjuntos de dados heterogêneos Essas técnicas ajustam os dados para uma escala comum prevenindo que atributos com magnitudes diferentes dominem o processo de mineração No campo dos sistemas de recomendação Ekstrand Riedl e Konstan 2010 demonstram como abordagens sofisticadas de filtragem de dados incluindo técnicas baseadas em conteúdo e colaborativas dependem fortemente da qualidade e coerência dos dados de entrada Uma base mal preparada pode gerar recomendações irrelevantes ou enviesadas prejudicando a experiência do usuário e reduzindo a eficácia dos sistemas inteligentes Assim a manipulação criteriosa e sistemática das informações tornase essencial não apenas para garantir a acurácia dos modelos e interpretações derivadas da mineração de dados mas também para assegurar a reprodutibilidade dos resultados e sua aplicabilidade em contextos reais A qualidade dos dados está diretamente relacionada à capacidade da organização de extrair conhecimento confiável relevante e acionável contribuindo de forma decisiva para a orientação estratégica e a geração de vantagem competitiva sustentada Em síntese a preparação adequada dos dados não é uma etapa acessória mas sim uma condição sine qua non para o sucesso de qualquer projeto baseado em análise de dados No contexto corporativo essa etapa representa a base sobre a qual serão construídas as estratégias analíticas e preditivas justificando o investimento em processos e ferramentas que garantam a excelência na gestão da informação 2112 Tratando Valores Ausentes O correto tratamento de dados ausentes é uma etapa essencial no processo de preparação de dados para o Knowledge Discovery in Databases KDD pois assegura a qualidade consistência e integridade do conjunto de dados Dados faltantes se não tratados adequadamente podem comprometer a validade das análises estatísticas distorcer resultados e consequentemente impactar negativamente a eficácia dos modelos de mineração de dados Assim é fundamental adotar abordagens criteriosas e fundamentadas para a identificação 27 análise e tratamento dessas lacunas garantindo que as inferências obtidas sejam confiáveis e representativas A primeira etapa crítica consiste na identificação da existência e da distribuição dos valores ausentes no banco de dados Isso envolve a quantificação do volume de dados faltantes por variável e a localização exata de onde ocorrem essas ausências Essa análise inicial fornece uma visão geral da extensão do problema e auxilia na definição de estratégias apropriadas de imputação ou eliminação de registros quando necessário Posteriormente tornase imprescindível realizar uma análise do padrão de ocorrência dos dados ausentes Essa análise visa determinar se os dados estão ausentes completamente ao acaso Missing Completely at Random MCAR ausentes ao acaso Missing at Random MAR ou ausentes de forma não aleatória Not Missing at Random NMAR A identificação desse padrão é decisiva para a seleção da técnica de tratamento mais eficaz Por exemplo se os dados estão ausentes de forma sistemática isso pode refletir vieses no processo de coleta falhas de instrumentação ou ainda uma relação estrutural com outras variáveis do conjunto de dados Riedl e Konstan 2011 ao analisarem os impactos dos valores ausentes em sistemas de recomendação ressaltam que a ausência de dados pode afetar diretamente a capacidade de personalização desses sistemas Os autores destacam que dados incompletos reduzem a acurácia das recomendações além de comprometer a robustez e a equidade dos algoritmos especialmente em abordagens colaborativas que dependem fortemente da completude das interações entre usuários e itens Entre as estratégias mais empregadas para lidar com dados ausentes destacamse Imputação por média mediana ou moda utilizada em situações de baixa complexidade onde os valores ausentes são substituídos por estatísticas simples de tendência central Imputação por regressão quando há uma relação identificável entre a variável ausente e outras variáveis do conjunto é possível estimar os valores ausentes com base em modelos de regressão linear ou múltipla 27 Técnicas de aprendizado de máquina como kNearest Neighbors k NN e redes neurais também são aplicadas para imputar valores com base em padrões complexos de similaridade ou aprendizado supervisionado Eliminação de registros ou variáveis adotada quando a quantidade de dados ausentes é suficientemente pequena para não comprometer a integridade do conjunto ou quando a variável não possui relevância significativa para o objetivo do modelo Modelos múltiplos de imputação como o Multiple Imputation by Chained Equations MICE considerados mais sofisticados permitem a geração de múltiplos conjuntos imputados incorporando a variabilidade e incerteza associadas ao processo A escolha da técnica de tratamento mais adequada deve considerar não apenas a proporção de dados faltantes mas também o contexto analítico a estrutura das variáveis e o impacto potencial sobre os resultados Um tratamento inadequado pode introduzir viés mascarar relações reais ou gerar interpretações enganosas Ademais o tratamento de dados ausentes deve ser documentado de forma transparente para garantir a rastreabilidade e reprodutibilidade dos resultados Em ambientes corporativos onde decisões estratégicas são tomadas com base em análises preditivas negligenciar essa etapa pode acarretar prejuízos operacionais e financeiros significativos Portanto a gestão criteriosa de dados faltantes é uma prática indispensável no ciclo de vida da ciência de dados Quando bem executada ela assegura a fidelidade das análises potencializa a acurácia dos modelos e contribui para a geração de conhecimento de alto valor agregado alinhado às metas organizacionais e à realidade dos negócios 2113 Normalização dos Dados A normalização dos dados assegura que os dados estejam em um formato apropriado para análise e modelagem Normalizar os dados ajuda a padronizar os valores dos atributos garantindo que eles contribuam de maneira equitativa nas 29 análises e modelos subsequentes Este processo serve para melhorar a performance de algoritmos de mineração de dados reduzindo a influência de características com valores numericamente mais amplos em algoritmos sensíveis à escala dos dados como a distância euclidiana utilizada em métodos de clusterização e classificação Entre as motivações para a normalização incluemse a eliminação de unidades diferentes o que é crucial quando variáveis são medidas em diferentes escalas por exemplo valores monetários e quantidade física a melhora da convergência de algoritmos de aprendizado de máquina como o gradiente descendente que tendem a convergir mais rapidamente quando os dados estão normalizados e o equilíbrio entre atributos evitando que atributos com valores maiores dominem a análise em detrimento de outros Cao et al 2023 mencionam a importância da normalização no contexto de modelos de gestão de receita onde a padronização dos dados facilita a aplicação de modelos logísticos multinomiais crucial para prever comportamentos de compra As técnicas comuns de normalização incluem HAN et al 2011 Escala MinMax Ajusta os dados para que fiquem dentro de uma faixa específica geralmente 0 1 Padronização ZScore Ajusta os dados para ter média 0 e desvio padrão 1 tornando mais fácil para algoritmos lidar com uma distribuição normal Normalização por Máximo Absoluto Redimensiona os dados de modo que os valores absolutos máximos sejam 1 útil para dados dispersos Escalonamento Robusto Robust Scaler Ajusta os dados usando a mediana e o intervalo interquartil sendo especialmente eficaz para dados com valores atípicos 2114 Outliers Boxplot Os valores atípicos também conhecidos como outliers são observações que se desviam significativamente do padrão geral de um conjunto de dados Esses 29 valores extremos podem surgir por diferentes razões como erros de mensuração falhas na entrada de dados flutuações experimentais ou em muitos casos características genuínas e relevantes que refletem fenômenos incomuns ou exceções significativas WASSERMAN 2020 Embora os outliers possam representar ruídos que distorcem a análise também podem oferecer informações importantes quando contextualizados corretamente A presença de outliers tem um impacto direto sobre a qualidade das análises estatísticas e a confiabilidade dos modelos preditivos Eles podem influenciar métricas de tendência central como média e dispersão como desvio padrão enviesar modelos de regressão e comprometer o desempenho de algoritmos de aprendizado de máquina Em particular Cao et al 2023 demonstram que a remoção ou o tratamento adequado de outliers é essencial em modelos de previsão de demanda e gestão de receita que combinam estruturas de demanda independentes com modelos logit multinomial O estudo destaca como a presença de outliers pode levar à subestimação ou superestimação de demanda impactando negativamente a eficiência de decisões estratégicas como precificação e alocação de recursos Para a detecção de outliers uma das ferramentas gráficas mais eficientes e amplamente utilizadas é o boxplot ou gráfico de caixa e bigodes Esse gráfico oferece uma representação visual da distribuição dos dados com base em medidas resumo como os quartis mediana mínimo e máximo e permite a identificação objetiva de valores discrepantes O Intervalo Interquartil IQR calculado como a diferença entre o terceiro quartil Q3 e o primeiro quartil Q1 é usado como base para definir os limites dos chamados bigodes do boxplot Valores que se encontram fora do intervalo compreendido entre Q1 15IQR e Q3 15IQR são considerados potenciais outliers e geralmente são destacados no gráfico por pontos individuais KRISHNAMURTHY DESHPANDE 2022 ZUUR IENO ELPHICK 2019 A análise gráfica por meio de boxplots é especialmente útil durante a fase de exploração de dados no processo de Knowledge Discovery in Databases KDD uma vez que permite uma rápida identificação de anomalias antes da aplicação de técnicas mais robustas de modelagem Em contextos de negócios saúde 31 engenharia ou ciências sociais os outliers podem representar tanto riscos analíticos quanto oportunidades de descoberta dependendo de como são interpretados Adicionalmente métodos estatísticos como o teste de Grubbs zscore padronizado e técnicas de clusterização como DBSCAN também são amplamente utilizados para detectar outliers em grandes volumes de dados Com o avanço da ciência de dados têmse adotado abordagens híbridas que combinam estatística clássica com algoritmos de aprendizado de máquina para classificar ponderar e até mesmo corrigir ou imputar valores discrepantes com maior grau de confiabilidade HAN et al 2011 21141 Estrutura e Componentes de um Boxplot OO boxplot também conhecido como gráfico de caixa e bigodes boxand whisker plot é uma ferramenta gráfica amplamente utilizada na estatística exploratória para representar de forma sintética a distribuição de um conjunto de dados Sua principal função é apresentar visualmente cinco medidasresumo fundamentais valor mínimo primeiro quartil Q1 mediana Q2 terceiro quartil Q3 e valor máximo permitindo observar a dispersão a simetria e a presença de possíveis valores atípicos outliers em um conjunto de dados PAGANO GAUVREAU 2018 Essa técnica oferece uma visão clara da variabilidade dos dados e da densidade em torno dos quartis sendo particularmente eficaz na comparação entre distribuições distintas ou na identificação de assimetrias e desvios A seguir detalhamse os principais elementos constituintes do boxplot Mediana Q2 Representada por uma linha horizontal localizada dentro da caixa a mediana corresponde ao segundo quartil ou seja o ponto que separa os 50 inferiores dos 50 superiores dos dados É uma medida robusta de tendência central menos sensível a valores extremos do que a média aritmética FIELD MILES FIELD 2017 Caixa Q1 a Q3 A estrutura retangular do gráfico compreende a faixa entre o primeiro quartil Q1 25 dos dados e o terceiro quartil Q3 75 dos dados Esse intervalo denominado amplitude interquartil IQR Interquartile Range representa os 50 centrais dos dados excluindo os extremos 31 inferiores e superiores A IQR é uma medida fundamental de dispersão eficaz para caracterizar a variabilidade dos dados sem a influência de outliers WASSERMAN 2020 WICKHAM GROLEMUND 2017 Bigodes Whiskers Os bigodes se estendem a partir das extremidades da caixa até os limites inferiores e superiores definidos como 15 vezes a IQR abaixo de Q1 e acima de Q3 Valores dentro desses limites são considerados normais na distribuição dos dados KRISHNAMURTHY DESHPANDE 2022 A extensão dos bigodes ajuda a visualizar a cauda da distribuição e identificar a assimetria Valores Atípicos Outliers Dados que se encontram fora dos limites dos bigodes são identificados como outliers e geralmente são representados por círculos asteriscos ou outros símbolos Esses valores podem indicar erros de medição registros incorretos ou fenômenos reais fora da distribuição esperada e merecem investigação especial pois podem influenciar de forma significativa análises estatísticas e decisões baseadas em dados ZUUR IENO ELPHICK 2019 Valores Mínimos e Máximos dentro dos limites Os extremos inferiores e superiores que ainda se encontram dentro dos limites definidos pelos bigodes representam os menores e maiores valores considerados regulares na distribuição Eles delimitam a cauda do conjunto de dados sem incluir os pontos considerados atípicos KABACOFF 2021 Além de sua simplicidade visual o boxplot é especialmente útil em contextos comparativos como quando se deseja analisar diferentes grupos ou categorias de uma variável Ao permitir a visualização simultânea de mediana dispersão e simetria o gráfico de caixa e bigodes tornase uma ferramenta indispensável em análises exploratórias diagnósticos estatísticos e em aplicações que envolvem a limpeza e validação de dados como no processo de Knowledge Discovery in Databases KDD A Figura 2 demonstra como as informações são visualmente dispostas Figura 2 Boxplot 33 Fonte Adaptado pelo autor 2025 Os boxplots são ferramentas eficazes para a identificação de outliers análise de distribuição e comparação entre grupos de dados Neles os outliers são facilmente identificados como pontos fora dos bigodes facilitando a visualização de anomalias Além disso o boxplot permite uma rápida visualização da distribuição dos dados evidenciando a presença de simetria ou assimetria Ao comparar boxplots de diferentes grupos é possível identificar diferenças significativas na distribuição e na presença de outliers entre os grupos Ao usar boxplots é possível visualizar claramente como os outliers podem influenciar a distribuição dos dados Por exemplo a presença de outliers pode distorcer a média puxandoa para cima ou para baixo Outliers também aumentam a variabilidade aparente dos dados refletida pelo comprimento dos bigodes do boxplot Identificar e tratar outliers pode levar a decisões mais informadas e precisas melhorando a qualidade das análises e previsões 2115 Uso do Python No cenário acadêmico o Python se tornou uma das ferramentas mais utilizadas para preparação dos dados conforme demonstrado pelo Times Higher Education World University Rankings 2023 que identificou o Python como linguagem padrão em 92 das 100 melhores universidades globais para cursos de ciência de dados e áreas afins Essa predominância se verifica especialmente no contexto da descoberta de conhecimento em bases de dados KDD Sua utilização 33 auxilia de forma relevante na garantia da adequação dos dados para análises mais detalhadas e na implementação de modelos avançados de mineração Abaixo são mencionadas algumas das principais bibliotecas do Python e suas funcionalidades essenciais destacando a importância dessas ferramentas na manipulação eficaz dos dados 21151 Pandas A biblioteca Pandas desenvolvida por Wes McKinney 2010 tornouse uma das ferramentas mais utilizadas em ciência de dados e análise estatística com Python Seu desenvolvimento visou suprir a necessidade de uma estrutura de dados robusta e eficiente para análise de dados em grande escala especialmente em aplicações que envolvem séries temporais e dados numéricos Desde então Pandas tem se consolidado como um dos principais pilares do ecossistema Python voltado à análise de dados Dentre suas funcionalidades mais relevantes destacamse as estruturas de dados fundamentais o DataFrame e a Series O DataFrame é uma estrutura bidimensional semelhante a uma planilha ou tabela SQL composta por colunas com rótulos e tipos de dados heterogêneos enquanto a Series é uma estrutura unidimensional comparável a um vetor com rótulos Essas estruturas são altamente flexíveis e otimizadas para operações de alto desempenho permitindo a realização de análises complexas com sintaxe simples e intuitiva Além disso Pandas oferece suporte abrangente para leitura e escrita de arquivos nos mais variados formatos como CSV Excel JSON Parquet e bancos de dados relacionais via SQL facilitando a integração com diferentes fontes de dados MCKINNEY 2010 Suas capacidades de manipulação e transformação de dados incluem seleção e indexação por rótulos ou posições filtragem condicional ordenação renomeação de colunas substituição de valores criação de colunas derivadas e reestruturação de dados como pivotamento e unpivotamento Outro recurso amplamente explorado é o agrupamento e agregação de dados por meio da função groupby que permite dividir conjuntos de dados com base em critérios específicos aplicar funções de agregação e combinar os resultados o que é fundamental para análises comparativas entre grupos Pandas também possui 35 métodos eficientes para o tratamento de valores ausentes NaN como preenchimento fillna interpolação exclusão de linhas ou colunas com dados faltantes dropna além da detecção de outliers e substituição condicional Adicionalmente a biblioteca permite operações avançadas de mesclagem e junção de dados com funções como merge join e concat possibilitando o cruzamento de informações de diferentes tabelas com base em chaves comuns Isso é particularmente relevante em contextos de integração de dados heterogêneos como aqueles provenientes de múltiplas fontes em projetos de Business Intelligence ou Data Warehousing A combinação de desempenho usabilidade e integração torna o Pandas uma ferramenta indispensável em diversas etapas do processo de Knowledge Discovery in Databases KDD especialmente nas fases de préprocessamento exploração e preparação de dados antes da aplicação de modelos estatísticos ou de aprendizado de máquina Sua ampla adoção na comunidade científica e no setor corporativo é evidenciada pela vasta documentação número de contribuições no GitHub e integração com bibliotecas como NumPy Matplotlib Scikitlearn e Seaborn 21152 NumPy A biblioteca NumPy Numerical Python é uma das ferramentas fundamentais no ecossistema da ciência de dados com Python oferecendo suporte a estruturas de dados eficientes e operações matemáticas de alto desempenho Desenvolvida inicialmente por Travis Oliphant e atualmente mantida como projeto de código aberto ela se consolidou como a base para a maioria das bibliotecas científicas e analíticas em Python De acordo com Harris et al 2020 NumPy é amplamente utilizada por seu desempenho superior e por permitir a manipulação eficiente de grandes volumes de dados numéricos A principal estrutura de dados do NumPy é o ndarray um array multidimensional homogêneo que permite armazenar e operar com grandes conjuntos de dados numéricos de forma otimizada Essa estrutura é fundamental para o processamento vetorial e matricial substituindo as listas e estruturas nativas 35 do Python quando se trata de aplicações que exigem desempenho e precisão computacional Dentre suas principais funcionalidades destacase a criação indexação e manipulação de arrays multidimensionais viabilizando o desenvolvimento de algoritmos científicos financeiros e estatísticos com grande eficiência O NumPy oferece também uma vasta gama de funções matemáticas estatísticas e lógicas que permitem realizar desde operações básicas soma multiplicação exponenciação até cálculos mais avançados como transformadas de Fourier álgebra linear integração e geração de números aleatórios Um dos maiores diferenciais da biblioteca está na sua capacidade de realizar operações vetorizadas ou seja aplicar funções diretamente a arrays inteiros sem a necessidade de loops explícitos Isso não apenas simplifica o código como também melhora significativamente o desempenho principalmente em relação às listas tradicionais do Python uma vez que essas operações são otimizadas em linguagem C internamente O NumPy é frequentemente utilizado como fundamento para outras bibliotecas da ciência de dados como Pandas Matplotlib Scikitlearn e TensorFlow pois fornece o suporte matemático necessário para manipulação de dados em diferentes contextos Sua interoperabilidade com bibliotecas de álgebra linear sistemas de equações diferenciais e manipulação de imagens tornao essencial em áreas como machine learning análise estatística simulação computacional e inteligência artificial 21153Scikitlearn A biblioteca Scikitlearn é uma das principais ferramentas disponíveis no ecossistema Python para a implementação de técnicas de aprendizado de máquina machine learning Desenvolvida originalmente por Pedregosa et al 2011 ela oferece uma interface unificada e de fácil utilização para uma ampla gama de algoritmos de aprendizado supervisionado e não supervisionado além de ferramentas para avaliação validação e otimização de modelos 37 Um dos principais diferenciais do Scikitlearn é sua modularidade e integração com outras bibliotecas fundamentais como NumPy SciPy e Pandas Essa integração permite a construção de pipelines robustos que englobam desde o pré processamento até a avaliação e refinamento de modelos preditivos As principais funcionalidades da biblioteca incluem Implementação de algoritmos de aprendizado supervisionado como regressão linear regressão logística máquinas de vetor de suporte SVM árvores de decisão florestas aleatórias random forest e redes neurais artificiais simples adequados para tarefas de classificação e regressão Modelos de aprendizado não supervisionado como kmeans DBSCAN aglomeração hierárquica e análise de componentes principais PCA aplicáveis a tarefas de clusterização e redução de dimensionalidade Ferramentas de préprocessamento de dados incluindo normalização padronização codificação de variáveis categóricas OneHot Encoding imputação de valores ausentes e seleção de atributos feature selection permitindo uma preparação rigorosa dos dados antes da modelagem Técnicas de validação cruzada crossvalidation e métodos de avaliação de desempenho como matrizes de confusão curvas ROC métricas de precisão recall f1score e acurácia que são fundamentais para garantir a robustez dos modelos e evitar problemas como overfitting e underfitting Construção de pipelines automatizados permitindo encadear etapas do fluxo de trabalho em aprendizado de máquina o que facilita a reprodutibilidade manutenção e escalabilidade dos modelos desenvolvidos O Scikitlearn possui ampla documentação comunidade ativa e compatibilidade com bibliotecas de visualização como Matplotlib e Seaborn o que o torna extremamente atrativo para projetos acadêmicos e profissionais Sua arquitetura modular associada à simplicidade de uso o consolidou como uma das bibliotecas mais utilizadas em pesquisas e aplicações práticas de ciência de dados 21154 Matplotlib 37 Matplotlib é uma biblioteca de visualização de dados em Python altamente versátil e amplamente utilizada Ela permite a criação de uma variedade extensa de gráficos desde gráficos simples até visualizações complexas e customizadas É uma ferramenta fundamental para cientistas de dados analistas e desenvolvedores que precisam visualizar dados de maneira eficaz HUNTER 2007 Suas principais funcionalidades são Criação de uma ampla variedade de gráficos estáticos e interativos Customização extensiva de gráficos incluindo estilo cores e rótulos Integração com outras bibliotecas de Python como NumPy e Pandas facilitando a visualização direta de dados armazenados em arrays e DataFrames Produz gráficos de alta qualidade que podem ser exportados para diversos formatos Facilita a criação de subplots e layout complexos permitindo a visualização de múltiplos gráficos em uma única figura 21155 Seaborn Seaborn é uma biblioteca de visualização de dados em Python sobre Matplotlib Ela é especialmente projetada para tornar a criação de gráficos estatísticos atraentes e informativos mais fácil e intuitiva Seaborn integrase bem com as estruturas de dados do Pandas permitindo a criação de visualizações diretamente a partir de DataFrames o que facilita o processo de análise exploratória de dados WASKOM et al 2020 Suas principais funcionalidades são Fornece uma variedade de gráficos estatísticos que facilitam a visualização de distribuições relações e comparações entre Suporta a criação de gráficos diretamente a partir de DataFrames do Pandas Possui uma variedade de temas e estilos de gráficos predefinidos que melhoram a estética das visualizações Simplifica muitas das complexidades de Matplotlib permitindo a criação rápida de visualizações complexas com poucas linhas de código 39 Oferece suporte robusto para análise de dados categóricos incluindo gráficos de barras gráficos de pontos e gráficos de contagem Inclui funções para criar mapas de calor heatmaps de matrizes de correlação que são úteis para visualizar a força das relações entre múltiplas variáveis 21156 Missingno Outra ferramenta relevante é o Missingno uma biblioteca de visualização de dados em Python especializada na identificação e apresentação gráfica de valores ausentes em conjuntos de dados Ela é útil para a análise exploratória pois facilita a detecção de padrões de ausência de dados e apoia na definição de estratégias para lidar com esses valores ausentes WASKOM et al 2020 Suas principais funcionalidades são Integrase com a biblioteca Pandas fornecendo visualizações que auxiliam na compreensão da distribuição e dos padrões de valores ausentes em um DataFrame Possui uma interface simples exigindo poucas linhas de código para gerar visualizações informativas relacionadas aos dados ausentes O domínio dessas ferramentas contribui para melhorar a qualidade dos dados analisados e fortalecer as habilidades analíticas dos profissionais Isso permite que analistas realizem suas atividades com maior eficácia e precisão Assim o conhecimento em Python e em suas bibliotecas associadas configurase como um recurso valioso para profissionais envolvidos com análise de dados e modelagem preditiva no contexto acadêmico e em outras áreas VANDERPLAS 2016 212 Transformação de Dados A transformação de dados consiste em processos que modificam os dados brutos para adequálos às etapas seguintes de análise como normalização padronização discretização entre outros procedimentos Esses métodos são fundamentais para preparar os dados e melhorar a eficiência dos algoritmos de mineração 39 Já a análise multivariada amplamente aplicada em estudos ambientais e espaciais NIJKAMP 1999 é uma técnica estatística que considera simultaneamente múltiplas variáveis para auxiliar na compreensão de fenômenos complexos Seu objetivo não é maximizar ou definir uma solução ótima mas oferecer uma visão mais próxima da realidade especialmente em contextos que envolvem múltiplos critérios quantitativos e qualitativos No método proposto para segmentação de clientes B2B a análise multivariada é utilizada como ferramenta para explorar e compreender padrões nos dados contribuindo para a fundamentação das decisões relacionadas à segmentação 2121 Método de Clusterização A análise de agrupamentos é um conjunto de técnicas que visa agrupar objetos com base em suas semelhanças e diferenças A formação dos grupos busca garantir que os objetos dentro de um mesmo grupo sejam semelhantes entre si e em relação aos demais grupos o mais diferentes possível O método não faz distinção entre variáveis dependentes e independentes uma vez que seu objetivo é caracterizar os grupos MALHOTRA 2006 Esse tipo de análise é especialmente útil quando o número de observações é tão grande que a análise individual dos eventos tornase impraticável Assim são criados grupos ou clusters que facilitam a manipulação e a investigação dos dados Na análise de agrupamentos não há conhecimento prévio sobre a formação ou posição dos grupos Essa técnica não é classificatória no sentido de não atribuir categorias previamente definidas mas sim descritiva Segundo HAIR et al 2009 não se faz suposições sobre a existência características ou quantidade dos grupos já que os agrupamentos são determinados com base em medidas de similaridade ou distância O processo de formação dos clusters envolve basicamente duas etapas a estimativa das medidas de similaridade entre os objetos e a aplicação de uma técnica para formar os grupos 41 De acordo com HAIR et al 2009 existem diversas medidas de similaridade disponíveis e a escolha da técnica depende da preferência e do objetivo do pesquisador As técnicas de agrupamento podem ser classificadas em dois tipos a Abordagem Hierárquica consiste em agrupamentos sucessivos aglomeração ou divisões repetidas divisiva dos elementos Os resultados são apresentados em forma de dendrogramas que mostram as distâncias entre os grupos formados Cada ramo do dendrograma representa um elemento e a base representa o conjunto completo Nesta técnica o número de clusters é definido após a análise com base na distribuição das distâncias b Abordagem Não Hierárquica consiste em agrupar os elementos em k grupos onde k é o número de clusters previamente definido pelo pesquisador 21211 Elbow O método do Elbow tem como objetivo identificar o ponto em que adicionar mais clusters não traz um benefício relevante conhecido como cotovelo da curva À medida que o número de clusters aumenta a soma dos erros quadrados Sum of Squared Errors SSE também chamada de inércia geral tende a diminuir pois os clusters ficam menores e os elementos mais próximos de seus centroides reduzindo a soma dos quadrados dentro dos clusters Contudo essa redução no SSE tornase mínima a partir de determinado ponto formando um cotovelo no gráfico Esse ponto de inflexão indica o número ideal de clusters a ser adotado Aumentar o número de clusters além desse ponto não traz melhorias significativas na redução da SSE podendo levar a um ajuste excessivo overfitting dos dados Figura 3 Exemplificação Gráfica Elbow 41 Fonte Adaptado pelo autor 2025 Na Figura 03 o gráfico do Método do Cotovelo ilustra a relação entre o número de grupos e a Soma dos Quadrados dos Erros SSE O SSE diminui significativamente quando o número de grupos aumenta de 2 para 3 e essa redução continua à medida que mais grupos são adicionados Contudo a diminuição do SSE tornase menos pronunciada após o número de grupos ser 4 O ponto em que o número de grupos é 4 ou 5 no nosso caso mais próximo de 4 mostra um cotovelo mais evidente onde a taxa de decréscimo do SSE começa a estabilizar Embora haja uma redução contínua a melhora marginal na coesão dos clusters começa a diminuir consideravelmente a partir desse ponto Com base na análise visual do gráfico o número ideal de grupos para este conjunto de dados seria 4 pois adicionar mais grupos a partir daí oferece um retorno decrescente em termos de redução do SSE 21212 Silhouette Na Figura 04 o gráfico da Pontuação de Silhueta em função do número de clusters revela que a pontuação é significativamente alta aproximadamente 098 ao considerar 2 agrupamentos Isso sugere uma separação muito eficaz e coesão interna robusta para esses dois grupos No entanto o valor da Pontuação de Silhueta diminui drasticamente para cerca de 037 quando o número de agrupamentos aumenta para 3 e a partir daí permanece em um nível relativamente 43 baixo e estável para quantidades maiores de clusters variando entre aproximadamente 037 e 048 Ao considerar a avaliação da Pontuação de Silhueta em conjunto com a análise do Método do Cotovelo Figura 03 percebese uma discrepância Enquanto o Método do Cotovelo pode indicar 4 clusters como um ponto de inflexão onde a redução do SSE começa a diminuir a Pontuação de Silhueta aponta que apenas 2 clusters oferecem a melhor distinção e coesão entre os dados Portanto com base exclusivamente na Pontuação de Silhueta fornecida o número ideal de clusters seria 2 Essa divergência entre as duas métricas é comum e ressalta a importância de empregar múltiplas abordagens e critérios para tomar decisões bem fundamentadas em problemas de clusterização A escolha final do número de clusters deve considerar não apenas as métricas estatísticas mas também o contexto do problema e o conhecimento de domínio 2122 KMeans O método kmeans é uma técnica de análise não hierárquica que ao receber um número prédefinido de agrupamentos k identifica os pontos que representam os centros desses clusters e distribui os dados de forma equilibrada até atingir um estado estável HAIR 2009 Os centroides iniciais são definidos aleatoriamente Em seguida cada observação é atribuída ao cluster cujo centroide é o mais próximo mensurado pela distância entre a observação e o centroide do grupo À medida que as observações são atribuídas as médias dos clusters são recalculadas resultando no ajuste da posição dos centroides Um processo iterativo é empregado para encontrar os centroides finais que são responsáveis por definir a composição de cada cluster A cada iteração os dados são reagrupados com base no centroide mais próximo e as médias são recalculadas Esse procedimento se repete até que não ocorra mais mudanças na atribuição das observações aos respectivos clusters HAIR et al 2009 O objetivo principal desse método é garantir a menor distância possível entre cada elemento do grupo e seu respectivo centroide Isso assegura que dentro de 43 cada grupo os elementos sejam o mais homogêneos possível e consequentemente distintos em relação aos elementos dos outros grupos Essa abordagem foi utilizada para realizar a segmentação neste trabalho 2123 Análise Fatorial A análise fatorial é uma técnica estatística usada para explicar a variação entre variáveis observadas e correlacionadas em termos de menos variáveis não observadas chamadas fatores Em essência procurase identificar estruturas subjacentes que explicam os padrões de correlação dentro de um conjunto de variáveis observadas Conforme HÖPPNER et al 2018 afirmam a análise fatorial é empregada para descobrir relações subjacentes entre as variáveis observadas agrupandoas em fatores que representam construtos latentes Essa abordagem é útil para reduzir a complexidade dos dados e identificar os fatores significativos que afetam o comportamento do consumidor Ao aplicar essa técnica é possível criar uma matriz de cargas fatoriais capaz de explicar as correlações entre os fatores compartilhados Para isso juntamente com a matriz de correlação dos indicadores existem autovetores que indicam o percentual da variação explicada pelos fatores garantindo que a soma das variâncias dos fatores seja igual à variação total do modelo Portanto a determinação do número de fatores no modelo influencia diretamente na capacidade explicativa da análise O processo da análise fatorial tem início com a elaboração da matriz de correlação das variáveis observadas seguida pela extração dos fatores Existem diversos métodos para essa extração como por exemplo a Análise de Componentes Principais PCA Thompson 2004 2124 Análise de Componentes Principais PCA A Análise de Componentes Principais PCA Principal Component Analysis é uma técnica estatística utilizada para reduzir a dimensionalidade de um conjunto de dados Ela transforma um grande grupo de variáveis interrelacionadas em um 45 conjunto menor de variáveis independentes conhecidas como componentes principais Cada componente principal é uma combinação linear das variáveis originais organizada de forma a capturar a maior variância possível dos dados A PCA é frequentemente empregada para reduzir o número de variáveis em conjuntos extensos de dados o que simplifica a visualização e a análise Além disso auxilia na detecção e compreensão de padrões nos dados facilitando o reconhecimento de tendências ou agrupamentos Também é comumente utilizada como parte do préprocessamento para algoritmos computacionais ajudando a eliminar ruídos e a simplificar as informações A análise de PCA envolve o cálculo de uma matriz de covariância dos dados centralizados que serve como base para a derivação dos autovalores e autovetores elementos cruciais para a formação das componentes principais HAIR et al 2009 A aplicabilidade da Análise de Componentes Principais PCA na redução da dimensionalidade e na derivação de fatores significativos é exemplificada por Cumps et al 2009 Em seu trabalho os autores utilizaram o algoritmo de indução de regras AntMiner para inferir regras compreensíveis de alinhamento entre negócios e Tecnologia da Informação e Comunicação TIC empregando um conjunto de dados com informações de alinhamento de 641 organizações 213 Data Mining para Classificação 2131 Algoritmos de Classificação Diante da crescente demanda por análise de grandes volumes de dados e da evolução da inteligência artificial a aplicação de técnicas avançadas tornouse indispensável para extrair insights significativos de vastos conjuntos de informações Métodos como árvores de decisão redes neurais artificiais e algoritmos genéticos são amplamente empregados no campo do aprendizado de máquina e da mineração de dados Essas ferramentas têm revolucionado a interpretação de dados possibilitando a abordagem de questões complexas e a realização de previsões com elevada precisão Nesse cenário os algoritmos de classificação em particular desempenham um papel crucial na organização e análise de dados Eles são capazes de identificar 45 padrões prever comportamentos futuros e oferecer suporte à tomada de decisões estratégicas Neste contexto é fundamental compreender as diferentes técnicas disponíveis as árvores de decisão por exemplo fornecem regras de classificação intuitivas e interpretáveis as redes neurais artificiais destacamse no reconhecimento de padrões complexos e não lineares e os algoritmos genéticos otimizam a busca por soluções ideais através de processos evolutivos No presente trabalho as árvores de decisão serão exploradas como uma ferramenta interpretativa para regras de classificação enquanto as redes neurais artificiais serão utilizadas para modelagem preditiva Além disso os algoritmos genéticos serão abordados destacando suas aplicações em otimização e modelagem preditiva com exemplos como a técnica AntMiner na previsão de churn de clientes Cada um desses métodos será detalhado em termos de suas aplicações vantagens e contribuições para a análise de dados e a tomada de decisões estratégicas 2132 Decision Tree Árvores de Decisão para Regras de Classificação A técnica da árvore de decisão é amplamente utilizada no aprendizado supervisionado para classificação e regressão Ela funciona dividindo os dados em subconjuntos com base em características que melhor distinguem a variávelalvo Uma das grandes vantagens das árvores de decisão é a sua capacidade interpretativa proporcionando um processo de tomada de decisão claro e fácil de entender LAROCHELLE et al 2022 Ao empregar o algoritmo da árvore de decisão é viável estimar se um cliente tem alta ou baixa probabilidade de adquirir um produto específico com base em seu perfil A estrutura organizada da árvore facilita a compreensão dos principais fatores que influenciam as previsões MOLNAR 2022 De acordo com Cumps et al 2009 técnicas como a mineração de dados usando árvores de decisão são eficientes na classificação de dados complexos permitindo inferir regras claras a partir dos dados coletados Estudo recente de Chen et al 2021 no Journal of Marketing Analytics demonstrou essa eficácia ao prever rotatividade de clientes churn em empresas de telecomunicações utilizando 47 árvores de decisão combinadas com análise fatorial para identificar os principais drivers de retenção Ademais o uso de algoritmos de árvore de decisão conforme ressaltado por Höppner et al 2018 e validado por Lundberg et al 2020 em seu trabalho com SHAP values pode aprimorar a precisão das previsões e otimizar o lucro esperado em contextos específicos tornandoos particularmente adequados para aplicações empresariais onde interpretabilidade e eficácia são essenciais embora não constituam uma solução universal para todos os casos de negócio DOMINGOS 2015 2133 RF Random Forest Random Forest é uma técnica de aprendizado em conjunto que cria várias árvores de decisão e combina suas previsões para melhorar a precisão e evitar o sobreajuste Cada árvore na floresta é construída com uma parcela aleatória dos dados de treinamento e um conjunto aleatório de características A previsão final é obtida através da média das previsões de todas as árvores individuais Breiman 2001 descreveu o Random Forest como um método caixa preta capaz de lidar facilmente com conjuntos de dados complexos Para exemplificar em um conjunto de dados de saúde contendo diversos parâmetros médicos como pressão arterial níveis de colesterol e histórico familiar de doenças o algoritmo Random Forest pode ser utilizado para estimar a probabilidade de um paciente desenvolver uma determinada condição com base em seu perfil médico Essa abordagem ajuda a capturar a complexidade das relações entre diferentes variáveis e gera previsões mais consistentes VERBEKE et al 2011 2134 RNA Redes Neurais Artificiais As redes neurais artificiais RNAs são algoritmos de aprendizado automático que se inspiram na estrutura neural do cérebro humano Elas são compostas por nós interconectados neurônios organizados em camadas onde em cada neurônio são realizados cálculos matemáticos a partir dos dados fornecidos Essas redes têm 47 a capacidade de identificar padrões e conexões complexas nos dados por meio da retropropagação De acordo com Rumelhart et al 1986 as redes neurais podem aprender e se adaptar com base em pares de entradasaída o que as torna adequadas para tarefas como reconhecimento de imagens e processamento de linguagem natural As RNAs têm sido amplamente empregadas em várias situações envolvendo modelagem preditiva No estudo de Pollak 2021 foi evidenciado que redes neurais superam os modelos estatísticos tradicionais na previsão do valor do tempo de vida do cliente Lifetime Value LTV especialmente em situações em que as relações entre as variáveis são complexas e não lineares As redes neurais apesar de serem exigentes em termos de processamento e engenharia de características mostraram se mais precisas ao modelar o comportamento futuro dos clientes com base em dados históricos Em pesquisa conduzida por Su et al 2023 publicada no Journal of Marketing Analytics a utilização de redes neurais foi explorada para a previsão do LTV em plataformas de publicidade online A estratégia empregou transformações wavelet cuja função matemática usada para dividir dados em diferentes componentes de frequência e em seguida estudar cada componente com uma resolução correspondente à sua escala as wavelets podem localizar características temporais específicas dentro dos dados e grafos de atenção para aprender representações dos usuários a partir de dados históricos esparsos e voláteis resultando em previsões mais sólidas e precisas Essa abordagem se destacou pela capacidade de lidar com a variabilidade nos comportamentos dos usuários ao longo do tempo Um estudo relevante conduzido por Adadi e Berrada 2018 demonstrou os desafios de interpretabilidade em redes neurais enquanto Xie et al 2019 comprovaram sua eficácia na previsão de rotatividade de clientes em cenários reais Como destacado por Arrieta et al 2020 técnicas de XAI eXplainable AI têm sido desenvolvidas para tornar esses modelos mais transparentes para profissionais de negócios Em síntese as redes neurais artificiais representam uma ferramenta poderosa para análise e previsão em diversos campos proporcionando benefícios significativos em termos de precisão e capacidade para lidar com dados complexos 49 No entanto a interpretação dos resultados pode se mostrar um desafio demandando abordagens adicionais para tornar os modelos mais transparentes e fáceis de compreender MOLNAR 2022 2135 AG Algoritmos Genéticos Algoritmos Genéticos AGs representam um tipo específico de algoritmo de otimização inspirado nos conceitos de seleção natural e genética Eles operam imitando os princípios biológicos de cruzamento recombinação mutação e seleção para evoluir uma população de soluções candidatas em direção a uma solução otimizada No contexto de previsão de churn de clientes Verbeke et al 2011 investigam o emprego de algoritmos genéticos e mais especificamente a técnica AntMiner destacando que o AntMiner é um algoritmo baseado em otimização por colônia de formigas ACO que utiliza princípios de algoritmos genéticos para desenvolver modelos classificatórios fundamentados em regras Essa abordagem possibilita a incorporação do conhecimento do domínio resultando em modelos preditivos que são tanto precisos quanto intuitivos aspecto crucial para aplicações práticas no mundo dos negócios Verhoeven et al 2023 discutem a utilização dos algoritmos genéticos na otimização da gestão de receitas Os autores empregam o modelo para resolver desafios complexos relacionados ao planejamento de recursos e seleção do mix em ambientes com demanda variada A abordagem fundamentada nos algoritmos genéticos destacase pela sua habilidade em lidar com a complexidade e incerteza inerentes a esses problemas oferecendo soluções robustas e eficazes O processo de evolução genética nos Algoritmos Genéticos possibilita a navegação eficaz por extensos espaços de soluções auxiliando na descoberta de conjuntos de parâmetros otimizados Esses estudos evidenciam que os algoritmos genéticos constituem ferramentas poderosas para otimização e modelagem preditiva em diferentes cenários Considerando diversas técnicas de aprendizado de máquina como árvores de decisão Random Forest redes neurais artificiais e algoritmos genéticos é evidente que cada uma possui seus pontos fortes e aplicações específicas 49 Enquanto técnicas como árvores de decisão e Random Forest são valorizadas por sua interpretabilidade e robustez na classificação e redes neurais artificiais se destacam em tarefas complexas de reconhecimento de padrões e previsão os algoritmos genéticos são particularmente úteis para problemas de otimização Essas ferramentas em conjunto permitem a análise de grandes volumes de dados e contribuem para a tomada de decisões embasadas em um cenário impulsionado por dados 22 SEGMENTAÇÃO DE CLIENTES No contexto empresarial contemporâneo caracterizado por mercados cada vez mais competitivos e saturados as organizações enfrentam o desafio constante de fidelizar seus clientes e otimizar processos de venda complexos A segmentação de clientes emerge assim como uma metodologia crucial para refinar estratégias de marketing aprimorar a retenção de clientes e maximizar o valor do tempo de vida do cliente LTV Customer Lifetime Value Para garantir a eficácia dessa abordagem técnicas como a avaliação da pureza e uniformidade dos segmentos a diferenciação entre grupos a aplicação de testes de hipóteses e a análise de correlação entre segmentos e variáveis de negócio são consideradas essenciais No desenvolvimento deste estudo diversos aspectos críticos da segmentação de clientes são abordados Inicialmente a pureza e uniformidade dos segmentos são avaliadas para verificar a coesão interna dos grupos formados Em seguida a diferenciação entre segmentos é explorada para assegurar que os grupos sejam distintos e consequentemente úteis para a tomada de decisão Os testes de hipóteses são empregados para comparar segmentos e características dos clientes validando a significância estatística das diferenças observadas Adicionalmente a análise de correlação entre segmentos e variáveis de negócio auxilia na identificação de quais grupos contribuem mais para o desempenho empresarial Por fim conceitos fundamentais como o Custo de Aquisição de Cliente CAC e o LTV são discutidos para uma compreensão aprofundada da rentabilidade e do impacto econômico dos diferentes segmentos de clientes 51 221 Pureza e Uniformidade dos Segmentos A pureza e a uniformidade são critérios cruciais utilizados para avaliar a consistência interna de segmentos ou grupos formados em um conjunto de dados A pureza mede a proporção de membros em um grupo que compartilham a mesma característicaalvo indicando a predominância de uma categoria específica A uniformidade por sua vez analisa o quão homogêneas são as características dentro do grupo demonstrando o grau de similaridade entre os membros A avaliação da pureza e uniformidade dos grupos é fundamental para analisar a coesão interna de um conjunto de clientes Essas métricas são indicativos diretos da similaridade entre os membros de um grupo em termos das características observadas Para mensurar os níveis de pureza e uniformidade ferramentas de programação como o Python podem ser utilizadas para implementar os cálculos necessários resultando nas seguintes interpretações Alta Pureza Indica que a maioria dos membros do grupo compartilha a mesma característica dominante implicando em uma forte coesão interna Baixa Pureza Sinaliza que o grupo possui uma variedade de características distintas mostrando uma ligação interna fraca e heterogeneidade A uniformidade pode ser mensurada utilizando o conceito de Entropia Baixa Entropia Aponta para uma grande uniformidade significando que os membros do grupo são altamente similares entre si Alta Entropia Indica uma grande diversidade dentro do grupo sugerindo baixa uniformidade e maior variabilidade Na análise de segmentação um grupo é considerado puro quando a maioria de seus membros compartilha características similares resultando em uma coesão interna elevada e bem definida Por exemplo no estudo realizado por Dahana et al 2019 a pureza e uniformidade dos grupos foram examinadas com base nas características de estilo de vida e comportamento de compra dos clientes demonstrando que segmentos bem definidos podem melhorar a precisão das previsões do valor vitalício do cliente LTV Além disso em seu artigo Verbeke et al 2011 ressaltam a importância do 51 uso de algoritmos genéticos como o AntMiner para garantir a coesão interna dos grupos por meio de regras claras e compreensíveis 222 Diferenciação entre Segmento A distinção entre os grupos é fundamental para garantir que sejam exclusivos e abrangentes ao mesmo tempo Uma clara separação entre os grupos facilita a criação de estratégias de marketing direcionadas tornandoas mais eficazes e eficientes A diferenciação entre grupos pode ser medida por meio de diferentes métricas e métodos estatísticos Alguns deles são Distância entre Centros dos Agrupamentos Centroides Análise de Variância ANOVA Teste de Hipóteses Testes T A distância entre centros dos agrupamentos Centroides é uma maneira direta de avaliar a diferenciação entre grupos calculando a distância entre os centroides centros dos agrupamentos Quanto maior for essa distância maior será a diferenciação entre os grupos ou seja Alta Distância sinaliza uma grande diferenciação entre os grupos sugerindo que os agrupamentos são distintos e possuem características únicas Baixa Distância indica uma baixa diferenciação indicando que os agrupamentos são semelhantes e podem não representar grupos distintos A Análise de Variância ANOVA é utilizada para comparar as médias de várias amostras e verificar se pelo menos uma das médias difere significativamente das outras Isso ajuda a determinar se existem diferenças significativas entre os grupos formados ou seja Um Festatístico alto e um valorp baixo indicam que pelo menos uma média de grupo difere significativamente das outras sugerindo distinção entre os grupos Um Festatístico baixo e um valorp alto indicam que não há diferenças significativas entre as médias dos grupos 53 Os testes de hipótese Testes T são utilizados para comparar as médias de dois grupos a fim de verificar se são significativamente diferentes Para múltiplos grupos a ANOVA é preferível embora os testes T possam ser usados para comparações em pares Um Testatístico alto e um valorp baixo indicam que as médias dos dois grupos são significantemente diferentes Um Testatístico baixo e um valorp alto indicam que não há diferença significativa entre as médias dos dois grupos De acordo com estudos de Dahana et al 2019 a diferenciação entre grupos foi feita com base em características comportamentais e psicográficas resultando em grupos que apresentam diferenças significativas no valor vitalício do cliente LTV Da mesma forma Cumps et al 2009 empregaram técnicas de algoritmos genéticos para criar grupos claramente distintos possibilitando a implementação de estratégias comerciais mais direcionadas e eficazes 223 Matriz de Confusão A matriz de confusão é uma ferramenta essencial para avaliar o desempenho de modelos de classificação como os utilizados para prever o Valor do Tempo de Vida do Cliente LTV Ela apresenta o desempenho do algoritmo ao comparar as previsões realizadas com os valores reais conhecidos permitindo a identificação de acertos verdadeiros positivos e verdadeiros negativos e erros falsos positivos e falsos negativos A partir de uma matriz de confusão diversas métricas de desempenho podem ser calculadas para fornecer uma análise detalhada da performance do classificador incluindo Acurácia A proporção total de previsões corretas Precisão ou Valor Preditivo Positivo A proporção de verdadeiros positivos entre todos os resultados positivos previstos pelo modelo Recall ou SensibilidadeRevocação A proporção de verdadeiros positivos que foram corretamente identificados dentre todas as instâncias positivas reais 53 F1Score A média harmônica da precisão e do recall sendo uma medida que equilibra ambas as métricas Especificidade A proporção de verdadeiros negativos que foram corretamente identificados dentre todas as instâncias negativas reais No estudo de Zhang et al 2022 a matriz de confusão foi empregada para avaliar a precisão das previsões do LTV evidenciando a efetividade do método proposto na classificação precisa dos clientes Similarmente Verbeke et al 2011 também utilizam a matriz de confusão para avaliar a acurácia dos modelos preditivos ressaltando a importância dessa ferramenta na validação e no ajuste dos modelos de previsão da rotatividade churn 224 Testes de Hipóteses Os testes de hipóteses são utilizados para comparar grupos e determinar se as diferenças observadas nas características dos clientes têm significância estatística Essas análises auxiliam na confirmação da realidade das distinções entre os grupos evitando interpretações aleatórias No estudo conduzido por Zhang et al 2022 foram empregados testes de hipóteses para comparar diferentes grupos de clientes validando a importância das variações nas características desses grupos para a segmentação Adicionalmente Verhoeven et al 2023 empregaram essas análises para avaliar a eficácia de diversas estratégias de gestão de receitas evidenciando a utilidade desses testes na verificação das abordagens adotadas na segmentação 225 Análise de Correlação entre Segmentos e Variáveis de Negócios A análise de correlação investiga as relações entre os grupos de clientes e indicadores empresariais como receita e frequência de compras Esse tipo de análise é fundamental para identificar quais grupos contribuem mais significativamente para o desempenho do negócio No estudo realizado por Zhang et al 2022 uma análise correlacional foi conduzida com o intuito de examinar a relação entre os grupos de clientes e o LTV revelando que determinados grupos apresentavam uma correlação mais expressiva com altos valores de LTV 55 A importância da análise de correlação na identificação de padrões e na compreensão do impacto dos diferentes segmentos nas variáveis de negócios é amplamente reconhecida na literatura de marketing e gestão MALHOTRA 2018 Essa ferramenta permite aos gestores visualizarem como as características dos segmentos se relacionam com métricas financeiras e operacionais auxiliando na tomada de decisões estratégicas e no direcionamento de recursos para os grupos de clientes mais rentáveis 226 Interpretação dos Resultados e Indicadores A interpretação dos resultados constitui uma etapa crítica dentro do ciclo de desenvolvimento de modelos analíticos e preditivos especialmente no contexto da segmentação de clientes e previsão de métricas de valor como o Lifetime Value LTV Essa fase é responsável por traduzir os resultados quantitativos em informações qualitativas que possam embasar decisões estratégicas A eficácia de um modelo é comumente avaliada por meio de indicadores de desempenho como acurácia precisão recall e F1score que oferecem diferentes perspectivas sobre a qualidade das previsões A acurácia por exemplo mede a proporção de previsões corretas entre todas as realizadas sendo útil em contextos onde as classes estão balanceadas Já a precisão indica a proporção de verdadeiros positivos entre todas as predições positivas enquanto o recall ou sensibilidade mensura a capacidade do modelo de identificar corretamente os casos positivos A pontuação F1 combina essas duas últimas métricas proporcionando uma média harmônica entre precisão e recall e é especialmente valiosa quando há desequilíbrio entre as classes como frequentemente ocorre em análises de churn ou segmentação de clientes com baixa representatividade No estudo de Dahana et al 2019 por exemplo a interpretação dos resultados foi conduzida com base em uma análise integrada desses indicadores Os autores demonstraram que os modelos aplicados à segmentação de clientes e à estimativa do LTV apresentaram níveis elevados de F1score e recall evidenciando sua robustez e confiabilidade principalmente no que diz respeito à capacidade de identificar clientes de alto valor potencial 55 Além da análise técnica dos resultados a compreensão contextual dos achados é essencial Verbeke et al 2011 argumentam que a simples obtenção de métricas estatisticamente satisfatórias não garante a utilidade dos modelos sendo fundamental realizar uma interpretação aprofundada que considere a aplicabilidade prática dos resultados no ambiente de negócios Isso inclui compreender como os segmentos identificados se relacionam com as estratégias comerciais da empresa quais variáveis influenciam significativamente o comportamento dos clientes e quais ações podem ser derivadas diretamente das previsões realizadas 227 CAC e LTV O Valor do Tempo de Vida do Cliente LTV Customer Lifetime Value é uma métrica fundamental que se refere ao total dos benefícios econômicos que uma empresa espera obter de todas as interações com um cliente ao longo de seu relacionamento Essa definição é corroborada por diversos estudos recentes como os de Pollak 2021 Zhang et al 2022 Li et al 2022 Afiniti 2022 e Su et al 2023 Nesse contexto a crescente complexidade do mercado e a evolução econômica contemporânea têm acentuado a importância para as empresas de construir e manter relacionamentos de longo prazo com seus clientes A base para decisões operacionais e estratégicas passou a incluir o LTV pois ele reflete o valor de longo prazo que um cliente representa para o negócio Para uma gestão comercial e de Inteligência de Mercado eficaz o conhecimento aprofundado do Custo de Aquisição de Cliente CAC e do LTV é indispensável A análise conjunta dessas métricas permite não apenas a construção de proposições e conclusões robustas sobre a metodologia de segmentação de clientes mas também a orientação da estratégia para a lucratividade otimizando o impacto no LTV 2271 CAC Customer Acquisition Cost O Custo de Aquisição de Clientes CAC é um indicador que mede os gastos com marketing e vendas realizados com a finalidade de adquirir um cliente novo 57 Tratase portanto de uma estimativa de quanto custa para conquistar um novo cliente WU et al 2023 Na concepção de Burelli 2019 a maioria das empresas investe uma parte significativa de sua receita em vendas e marketing Nesse sentido é crucial que realizem uma análise cuidadosa sobre o montante gasto em canais específicos e o número de clientes captados por meio de cada um Essa análise é fundamental para auxiliar na determinação da estratégia de marketing mais eficaz e dos canais de marketing mais lucrativos POLLAK 2021 Em conformidade com essa perspectiva Afiniti 2022 destaca que a aquisição de um novo cliente requer um investimento inicial elevado Este investimento não se limita apenas à comunicação do produto ao mercado mas também envolve a mobilização da força de vendas necessária para o escalonamento do negócio Consequentemente a aquisição de clientes frequentemente representa um dos principais custos da organização podendo em alguns casos atingir até 50 do faturamento da empresa Dada a materialidade do investimento em aquisição o acompanhamento rigoroso do CAC é de suma importância para a gestão Este indicador é essencial para que líderes de vendas e executivos de alto escalão como um CEO tenham uma visão clara do crescimento atual da empresa e da potencial rentabilidade futura que esse crescimento pode gerar Nessa perspectiva para calcular o CAC somamse todos os investimentos em marketing e vendas realizados em um período determinado e esse valor é dividido pela quantidade de clientes captados nesse mesmo período conforme pode ser observado na figura abaixo CACCmv Nc Onde CAC é o Custo de Aquisição de Cliente Cmv é o custo total de marketing e vendas para a aquisição de clientes investimentos 57 Nc é o número de novos clientes adquiridos Por meio dessa fórmula o CAC revelase uma métrica de grande importância estratégica Embora sua compreensão conceitual e o cálculo aritmético sejam diretos o desafio reside na obtenção precisa dos dados de investimento e na correta atribuição dos clientes captados o que pode dificultar a mensuração acurada para muitas empresas É fundamental ressaltar que o CAC não inclui quaisquer custos fixos de produção ou despesas que não estejam diretamente relacionadas aos departamentos de vendas e marketing como os de pesquisa e desenvolvimento finanças e administração ou despesas gerais O que o CAC engloba são todos os custos de vendas e marketing mesmo aqueles incorridos quando um possível cliente opta por não realizar a compra do produto Assim para a sustentabilidade de um modelo de negócios o custo de aquisição de clientes não pode ser superior ao valor que esse cliente gera para a organização ao longo de seu relacionamento o Lifetime Value LTV LI et al 2022 2272 LTV Lifetime Value O Lifetime Value LTV de um cliente conforme já abordado anteriormente seção 228 referese ao valor financeiro total que um cliente gera para a empresa ao longo de todo o seu relacionamento Olnén 2022 complementa essa definição destacando que o LTV representa o lucro médio que o cliente proporciona no período analisado considerando todos os custos associados ao seu ciclo de vida Na verdade o LTV pode ser definido como a receita líquida total que a empresa espera obter de um cliente individual durante todo o período em que ele mantiver sua associação já descontados os custos variáveis incorridos para atender às suas necessidades Na visão de Zhang et al 2022 o cálculo do LTV deve considerar essencialmente três fatores a margem de contribuição a taxa de retenção e a taxa de desconto Primeiramente a margem de contribuição representa a receita anual que os clientes geram subtraídas as despesas operacionais diretas para atendêlos Em segundo lugar a taxa de retenção corresponde ao percentual de clientes de um 59 período por exemplo o primeiro ano que se espera que continuem a consumir no período subsequente segundo terceiro ano e assim por diante Por fim a taxa de desconto referese ao custo de capital atual da empresa aplicada para trazer os fluxos de caixa futuros a valor presente refletindo o valor do dinheiro no tempo A seguir na Figura 2 é apresentada a fórmula para o cálculo do LTV LTV t1 n RtCt 1d t endo LTV é o Valor Vitalício do Cliente Rt é a receita gerada pelo cliente no período t Ct são os custos totais associados ao cliente no período t incluindo custos de aquisição atendimento manutenção e outros custos operacionais d é a taxa de desconto que reflete o valor do dinheiro ao longo do tempo t é o período específico e n é o número total de períodos considerados no ciclo de vida do cliente 2273 LTV Lifetime Value O Lifetime Value LTV de um cliente conforme já abordado anteriormente seção 228 referese ao valor financeiro total que um cliente gera para a empresa ao longo de todo o seu relacionamento Olnén 2022 complementa essa definição destacando que o LTV representa o lucro médio que o cliente proporciona no período analisado considerando todos os custos associados ao seu ciclo de vida Na verdade o LTV pode ser definido como a receita líquida total que a empresa espera obter de um cliente individual durante todo o período em que ele 59 mantiver sua associação já descontados os custos variáveis incorridos para atender às suas necessidades Na visão de Zhang et al 2022 o cálculo do LTV deve considerar essencialmente três fatores a margem de contribuição a taxa de retenção e a taxa de desconto Primeiramente a margem de contribuição representa a receita anual que os clientes geram subtraídas as despesas operacionais diretas para atendêlos Em segundo lugar a taxa de retenção corresponde ao percentual de clientes de um período por exemplo o primeiro ano que se espera que continuem a consumir no período subsequente segundo terceiro ano e assim por diante Por fim a taxa de desconto referese ao custo de capital atual da empresa aplicada para trazer os fluxos de caixa futuros a valor presente refletindo o valor do dinheiro no tempo A seguir é apresentada a fórmula para o cálculo do LTV LTRL 1 C Onde a taxa de churn é dada por CP I Substituindo a fórmula da taxa de churn na fórmula do Lifespan temos LTRL I P I Simplificando a fórmula do Lifespan tornase LTRL I P onde L é o Lifespan ou tempo de vida útil esperado do cliente C é a Churn Rate ou taxa de churn dos clientes 61 P é o número de Clientes Perdidos durante o período I é o número total de Clientes Iniciais no início do período A partir da compreensão dessas fórmulas e dos conceitos de LTV e LTR verificase que o cálculo dessas métricas é fundamental para entender a viabilidade do negócio e é essencial para a tomada de decisões estratégicas Entretanto é importante ressaltar que nenhuma métrica quando analisada isoladamente oferece todas as informações necessárias para uma compreensão completa do cenário de negócios A análise conjunta de LTV LTR e CAC proporciona uma visão mais holística e acionável 23 SEGMENTAÇÃO DE CLIENTES B2B A segmentação de clientes no ambiente B2B BusinesstoBusiness constitui uma prática estratégica fundamental para organizações que almejam direcionar de forma mais eficaz seus recursos de marketing vendas e atendimento Diferentemente do contexto B2C BusinesstoConsumer em que a segmentação frequentemente utiliza critérios demográficos e comportamentais de consumidores individuais o B2B apresenta maior complexidade exigindo abordagens multidimensionais que considerem entre outros fatores a lucratividade potencial do cliente a previsibilidade de relacionamento a longo prazo o alinhamento estratégico com os produtos ou serviços ofertados bem como indicadores quantitativos como o Lifetime Value LTV e o Custo de Aquisição de Clientes CAC KOTLER KELLER 2016 A análise segmentada da base de clientes quando orientada por dados e fundamentada em modelos analíticos permite identificar perfis empresariais com maior probabilidade de gerar retorno financeiro ao longo do tempo além de favorecer decisões como a priorização de esforços comerciais a personalização de ofertas e a reavaliação de investimentos em marketing e suporte O ambiente B2B é marcado por características como o ciclo de vendas mais longo o envolvimento de múltiplos tomadores de decisão negociações 61 personalizadas contratos de valor elevado e menor volume de transações Diante desse cenário adotar uma estratégia de segmentação eficiente é imperativo para o sucesso organizacional Segundo Kumar 2018 empresas que adotam práticas de segmentação com base no valor do cliente apresentam resultados superiores em rentabilidade e fidelização além de reduzirem significativamente os custos relacionados à aquisição e retenção Ademais a segmentação permite a personalização das comunicações produtos e propostas de valor adaptandoas às necessidades específicas de cada grupo de clientes Essa customização impulsiona a retenção e reduz a taxa de evasão churn conforme demonstrado por Pollak 2021 ao indicar que a eficácia das ações de marketing personalizadas pode ser ampliada em até 30 com o uso de segmentações orientadas por dados 231 Critérios Relevantes para a Segmentação B2B A literatura especializada identifica uma gama de critérios que podem ser utilizados no processo de segmentação B2B A escolha desses critérios depende em grande parte dos objetivos do negócio do tipo de produto ou serviço oferecido e do nível de maturidade analítica da empresa Os critérios podem ser agrupados em três grandes categorias financeiros comportamentais e estratégicos 2311 Critérios Financeiros Os critérios financeiros são essenciais para identificar clientes que geram maior valor econômico Dentre os principais destacamse Faturamento anual da empresa cliente Margem de lucro média por transação Custo de aquisição por canal de entrada 63 Pontualidade nos pagamentos e risco de inadimplência ZHANG et al 2022 Tais variáveis são particularmente úteis quando integradas ao cálculo do Lifetime Value LTV pois fornecem insumos para estimar o retorno financeiro que um cliente pode gerar durante seu relacionamento com a organização 2312Critérios Comportamentais Os critérios comportamentais analisam o histórico de interação entre a empresa e seus clientes e são especialmente úteis para a personalização de estratégias Incluem Frequência de compras e recorrência de pedidos Tempo médio de relacionamento com a empresa Engajamento com canais de comunicação e suporte técnico Respostas a campanhas de marketing anteriores DAHANA et al 2019 Esses dados podem ser extraídos de sistemas de CRM e plataformas de automação de marketing fornecendo uma visão dinâmica do comportamento do cliente ao longo do tempo 2313 Critérios Estratégicos Os critérios estratégicos avaliam o potencial de um cliente para contribuir com o crescimento futuro da empresa fornecedora São exemplos Potencial de expansão da conta upsellcrosssell Aderência aos produtos ou serviços ofertados 63 Sinergia cultural e estratégica entre as empresas Posicionamento da empresa cliente dentro de seu próprio mercado KANCHANAPOOM CHONGWATPOL 2022 Estes critérios embora mais qualitativos podem ser operacionalizados a partir de escalas de avaliação interna ou entrevistas com executivos da área comercial 232 TÉCNICAS QUANTITATIVAS PARA SEGMENTAÇÃO B2B Com a digitalização dos processos e o crescimento do volume de dados disponíveis surgiram metodologias mais robustas e automatizadas de segmentação A aplicação de técnicas de ciência de dados especialmente de machine learning permite o agrupamento de clientes com base em padrões ocultos que nem sempre são perceptíveis por métodos tradicionais Clusterização Técnicas como Kmeans DBSCAN e hierarquias de aglomeração são amplamente utilizadas para a criação de segmentos homogêneos de clientes O algoritmo Kmeans por exemplo é eficaz na formação de clusters com base em distância euclidiana entre variáveis normalizadas sendo ideal para grandes volumes de dados estruturados HAN KAMBER PEI 2011 1 Modelos Supervisionados Modelos como Random Forest Gradient Boosting e Redes Neurais Artificiais são indicados para previsão de LTV churn ou propensão de compra Esses modelos treinam classificadores com base em variáveis históricas para prever o comportamento futuro de clientes BAUER JANNACH 2021 Análise Fatorial A análise fatorial permite a redução da dimensionalidade de conjuntos de dados com muitas variáveis correlacionadas identificando fatores latentes que influenciam o comportamento do cliente É amplamente utilizada em estudos de comportamento organizacional HAIR et al 2009 Processos KDD e CRISPDM 65 A aplicação das etapas do processo de Knowledge Discovery in Databases KDD e do modelo CRISPDM Cross Industry Standard Process for Data Mining estrutura o projeto de segmentação em fases compreensão do negócio exploração e preparação dos dados modelagem avaliação e implantação FAYYAD et al 1996 Tais abordagens asseguram que a segmentação esteja alinhada aos objetivos estratégicos e operacionais da organização 233 Desafios Atuais e Perspectivas Futuras Embora as técnicas analíticas estejam cada vez mais acessíveis a segmentação B2B ainda enfrenta obstáculos consideráveis Fragmentação dos dados entre diferentes sistemas legados ERP CRM BI Baixa qualidade ou incompletude dos dados que compromete os resultados da modelagem Falta de integração entre as áreas de marketing vendas e TI que dificulta a implantação de estratégias baseadas nos segmentos Mudanças rápidas no comportamento dos clientes especialmente em cenários de crise como observado no período póspandemia LI et al 2022 Como tendência observase a adoção de sistemas de segmentação dinâmica com base em inteligência artificial e análise em tempo real O uso de algoritmos de deep learning redes neurais convolucionais e análise de sentimentos em interações textuais emails chats reuniões virtuais tem permitido uma visão mais precisa da jornada do cliente B2B SU et al 2023 HUANG RUST 2020 A segmentação de clientes no ambiente B2B tem evoluído de abordagens empíricas para modelos matematicamente fundamentados e orientados por dados A utilização de métricas como LTV e CAC em conjunto com algoritmos de machine learning permite a construção de segmentos altamente eficazes na maximização do 65 valor do cliente A abordagem datadriven possibilita estratégias mais personalizadas eficientes e rentáveis que se traduzem em maior competitividade e sustentabilidade para as organizações Dessa forma a compreensão aprofundada dos critérios de segmentação o domínio das técnicas de análise de dados e a integração entre áreas estratégicas são pilares fundamentais para o sucesso das estratégias comerciais no cenário B2B contemporâneo Estudos futuros devem considerar a evolução dos modelos de inteligência artificial generativa bem como a integração de dados não estruturados como voz texto e imagem na análise preditiva de valor e comportamento dos clientes 67 3 TRABALHOS CORRELATOS A segmentação de clientes e a gestão de seu valor são temas cruciais na literatura de marketing e gestão Kotler e Keller 2006 defendem que uma empresa não deve perseguir e satisfazer indiscriminadamente todos os clientes mas sim focar naqueles que são lucrativos Eles definem um cliente lucrativo como uma pessoa família ou empresa cujas receitas ao longo da vida excedem em um valor aceitável os custos da empresa para atrair vender e atender esse cliente Esse excedente de valor é conhecido como Valor do Tempo de Vida do Cliente ou LTV Lifetime Value Nesse sentido a capacidade de identificar e gerenciar clientes de alto valor é um pilar da estratégia empresarial moderna A relevância do LTV para a tomada de decisões operacionais estratégicas é amplamente corroborada por diversos estudos recentes incluindo os de Pollak 2021 Zhang et al 2022 Li et al 2022 Afiniti 2022 e Su et al 2023 que abordam a soma dos benefícios econômicos gerados pelas interações do cliente ao longo de sua vida útil Kanchanapoon e Chongwatpol 2022 apresentaram um modelo baseado no LTV que auxilia diretamente na tomada de decisões de marketing Os autores estudaram a indústria de medicina complementar e alternativa onde dada a natureza específica do mercado a manutenção de relacionamentos duradouros com os clientes é de suma importância Os clientes foram divididos em quatro grupos distintos conforme ilustrado na Figura 08 Este modelo serve como um indicador preditivo para identificar grupos de clientes que gerarão mais valor ao longo do tempo reforçando a importância de estratégias de marketing direcionadas e personalizadas Através da análise do gráfico é possível definir estratégias como a construção ou o aumento do relacionamento com clientes a preservação do relacionamento existente a maximização do retorno sobre o relacionamento com posterior descontinuação ou o abandonoencerramento de relacionamentos de baixo valor Figura 4 Proposta de segmentação de clientes baseado no valor ao longo da sua vida e na sua lealdade à marca 67 Fonte Adaptado pelo autor Afiniti 2022 diz que estimar o valor LTV é extremamente importante para tomar melhores decisões de negócios O modelo flexível de riscos proporcionais proposto permite uma estimativa do valor vitalício em configurações contratuais Essa abordagem tira proveito de um modelo de churn que se supõe estar disponível Para Su et al 2023 a estimativa precisa do LTV que reflete o consumo potencial de um usuário durante um período é crucial para o gerenciamento de receita das plataformas de publicidade online No entanto prever o LTV em aplicações do mundo real não é uma tarefa fácil pois os dados de consumo do usuário geralmente são insuficientes dentro de um domínio específico Para resolver esse problema os autores discutiram uma nova estrutura adaptativa entre domínios CDAF para alavancar dados de consumo de diferentes domínios O método proposto é capaz de mitigar simultaneamente o problema de escassez de dados e o problema de gap de distribuição causado por dados de diferentes domínios Para ser específico esse método primeiro aprende um modelo de previsão de LTV de uma plataforma diferente mas relacionada com fornecimento de dados suficiente Zhang et al 2022 destacam que como uma medida da contribuição de longo prazo produzida pelos clientes em um relacionamento de serviço ou produto o LTV pode ajudar a determinar de forma mais abrangente a estratégia ideal para a entrega do serviço No entanto é um desafio abstrair com precisão o LTV modelálo 69 de forma razoável e encontrar a solução ideal As teorias atuais não podem expressar com precisão o LTV por causa da estrutura de modelagem única ou não há solução eficiente Propõese um método geral de modelagem de LTV que resolve o problema de que a contribuição de longo prazo dos clientes é difícil de quantificar enquanto os métodos existentes como a modelagem da taxa de cliques perseguem apenas a contribuição de curto prazo Ao mesmo tempo também se propõe uma solução de programação dinâmica rápida baseada em um método de bisseção mutado e na hipótese de experimentos repetidos sem memória Pollak 2021 destaca que prever as compras futuras do cliente e o valor da vida útil é uma métrica importante para gerenciar campanhas de marketing e otimizar os gastos com marketing Essa tarefa é especialmente desafiadora quando as relações entre o cliente e a empresa são de natureza não contratual e portanto as compras futuras precisam ser previstas com base principalmente nas compras históricas Este trabalho compara duas abordagens para prever as compras futuras do cliente primeiro usando um modelo estatístico compre até morrer para prever o comportamento do cliente e depois usando uma rede neural no mesmo conjunto de dados e comparando os resultados Essa comparação levará a análises quantitativas e qualitativas desses dois métodos bem como recomendações sobre como proceder em diferentes casos Bauer e Jannach 2021 introduziram métodos inovadores para melhorar a previsão do LTV Os autores propuseram a i utilização de redes neurais recorrentes RNNs onde procurase capturar padrões temporais nas interações entre clientes e produtos ao longo do tempo ii utilização de modelos de atenção Attention Models que são uma extensão das redes neurais que permitem focar em partes específicas da realização de uma tarefa iii préprocessamento de dados avançado proposto pelos autores para lidar com os desafios específicos nas interações clienteproduto como tratamento de dados ausentes normalização de dados e codificação de dados categóricos iv Modelo de aprendizado de sequência para sequencia Seq2Seq capaz de capturar as interações temporais complexas entre os clientes e produtos ou serviços ao longo do tempo levando em consideração a sequência de eventos históricos v Combinação de modelos baseados em características FeatureBased e Seq2Seq no qual os autores propuseram a combinação de dois modelos aproveitando os pontos fortes de cada um e não 69 depender exclusivamente de um único modelo Todos esses modelos têm por objetivo melhorar a precisão das previsões de LTV Segundo Li et al 2022 a previsão do LTV em plataformas digitais com bilhões de usuários é uma tarefa desafiadora dadas a complexidade e diversidade de dados A solução desenvolvida pelos autores para uma empresa de tecnologia chinesa com uma base de bilhões clientes contou com metodologias avançadas de análise de dados machine learning e inteligência artificial incluindo o uso de algoritmos de aprendizado análise de dados em tempo real modelagem de séries temporais e outras técnicas Olnén 2022 diz que a precisão do LTV é fundamental para empresas que buscam otimizar duas estratégias de relacionamento e maximizar a rentabilidade de longo prazo O autor utiliza técnicas avançadas de aprendizado de máquina especialmente redes neurais profundas para capturar a complexidade e as nuances no comportamento dos clientes Esses modelos são capazes de aprender padrões complexos nos dados históricos de interação com os clientes como frequência de compras valor das transações engajamento com o serviço etc Olnén 2022 oferece uma compreensão abrangente do LTV futuro dos clientes permite que as empresas avaliem o retorno sobre o investimento em marketing e pode fornecer uma ferramenta útil ao determinar o valor de uma empresa Além disso as previsões de LTV permitem que os profissionais de marketing segmentem os clientes com base no LTV previsto e por sua vez aloquem efetivamente recursos de marketing para aquisição retenção e venda cruzada Dada a distribuição de cauda pesada do LTV avaliouse o desempenho preditivo do modelo a partir de dois aspectos discriminação e calibração A discriminação de modelos avalia a capacidade de um modelo de diferenciar clientes de alto valor daqueles de baixo valor A calibração do modelo mede o quão próximo os valores de previsão correspondem aos valores do rótulo No entanto esse processo de avaliação pode ser demorado e consumir muitos recursos devido ao processo manual de ponderação das duas medidas Com base na análise conjecturase que a discriminação do modelo é ponderada 19 vezes mais do que a calibração do modelo No trabalho relacionado também se observa uma falta de informações sobre como as medidas de precisão melhoram à medida que o período dos dados históricos aumenta 71 Jasek et al 2019 afirmam que a seleção de um modelo LTV adequado é uma questão fundamental para empresas que estão introduzindo uma abordagem gerencial de LTV em suas lojas de relacionamento B2C online O ambiente de varejo online coloca os modelos de LTV em vários pressupostos específicos como relacionamento não contratual compra contínua a qualquer momento e ambiente de gastos variáveis O artigo se concentra na análise estatística empírica e nas habilidades preditivas de modelos LTV probabilísticos selecionados que mostram resultados muito bons em um ambiente de varejo online em comparação com diferentes famílias de modelos Para comparação foram selecionados onze modelos de LTV A dinâmica do comércio eletrônico impõe às empresas a necessidade de entender profundamente LTV de seus clientes para sustentar decisões estratégicas e operacionais efetivas especificamente no ambiente de compras online Win e Bo 2020 dizem que a segmentação de clientes baseada no LTV é uma prática essencial no marketing moderno permitindo que as empresas identifiquem e priorizem grupos de clientes de acordo com seu valor financeiro potencial Os autores empregam o algoritmo Random Forest para prever a classe de clientes com base em seu LTV demonstrando a aplicabilidade de métodos de aprendizado de máquina em estratégias de marketing e gestão de clientes O modelo proposto pelos autores prevê a classe de clientes do próximo ano com base em seu LTV o que ajuda o varejista online a decidir qual cliente deve investir para obter CRM de longo prazo Dahana et al 2019 afirmam que a compreensão do LTV é essencial para o desenvolvimento de estratégias de marketing eficazes especialmente em setores de alta dinamicidade como o varejo de moda online Este estudo explorou como o estilo de vida pode explicar os valores heterogêneos LTV entre vários segmentos de mercado Desenvolveuse um modelo de classe latente de frequência de compra duração da vida útil e valor da compra para inferir o LTV no nível do segmento Presumiuse que a adesão dos clientes a cada segmento depende de seus padrões de estilo de vida O modelo proposto foi então aplicado aos dados de transações e estilo de vida dos clientes em um mercado de varejo de moda online proporcionando uma perspectiva inovadora sobre como as preferências e comportamentos individuais influenciam o valor de longo prazo dos clientes 71 Para Dahans et al 2019 o LTV pode ser definido como o valor total que a empresa espera obter de um único cliente durante todo o período em que este mantém seu relacionamento com a empresa levando em conta a receita líquida após subtrair os custos variáveis incorridos para atender às necessidades desse cliente Para Burelli 2019 à medida que as empresas de jogos adotam cada vez mais um modelo de negócios orientado a serviços a necessidade de modelos preditivos de jogadores se torna mais premente Múltiplas atividades como aquisição de usuários operações de jogos ao vivo ou design de jogos precisam ser suportadas com informações sobre as escolhas feitas pelos jogadores e as escolhas que eles podem fazer no futuro Isso é especialmente verdadeiro no contexto de jogos F2P freetoplay onde a ausência de uma parede de pagamento e a natureza errática do comportamento de jogo e gastos dos jogadores tornam as previsões sobre a receita e alocação de orçamento e recursos extremamente desafiadoras Wu et al 2023 dizem que a previsão do LTV pode ajudar os provedores de serviços a otimizar suas políticas de marketing em aplicativos centrados no cliente No entanto a forte escassez de eventos de consumo e a interferência da variação de dados e do ruído obstruem a estimativa do LTV Muitos métodos existentes de previsão de LTV treinam diretamente um preditor de LTV de visão única em amostras de consumo o que pode resultar em extração de conhecimento imprecisa e até tendenciosa Neste artigo os autores propuseram uma estrutura de multivisualização contrastiva para previsão de LTV que é uma solução PnP plug andplay compatível com vários modelos de backbone Ele sintetiza vários regressores LTV heterogêneos com conhecimento complementar para melhorar a robustez do modelo e captura o parentesco da amostra por meio do aprendizado contrastivo para mitigar a dependência da abundância de dados Wang et al 2019 modelaram a distribuição do LTV com base em características associadas utilizando uma mistura de massa de ponto zero e uma distribuição lognormal denominada distribuição lognormal inflada de zero ZILN Essa abordagem de modelagem permite capturar a probabilidade de rotatividade e ao mesmo tempo considerar a natureza de cauda pesada do LTV Além disso ela produz uma quantificação direta da incerteza na previsão pontual A perda de ZILN 73 pode ser aplicada tanto em modelos lineares quanto em redes neurais profundas DNN Para a avaliação do modelo utilizouse o coeficiente de Gini normalizado para quantificar a discriminação do modelo e gráficos decil para avaliar a calibração do modelo Empiricamente se demonstrou o desempenho preditivo do modelo proposto em dois conjuntos de dados públicos do mundo real Cao et al 2023 consideram problemas de otimização de sortimento quando os clientes escolhem sob uma mistura de modelos de demanda independente e logit multinomial Na configuração de otimização de sortimento cada produto tem uma receita fixa associada a ele Os clientes escolhem entre os produtos de acordo com nosso modelo de escolha de mistura O objetivo é encontrar um sortimento que maximize a receita esperada de um cliente Os autores mostraram que é possível encontrar o sortimento ótimo resolvendo um programa linear Estabeleceram que o sortimento ótimo se torna maior à medida que aumenta o tamanho relativo do segmento de clientes com o modelo de demanda independente 73 3 METODOLOGIA 31 TIPO DE PESQUISA Este trabalho apresenta o desenvolvimento de uma metodologia prática para segmentar clientes em empresas que atuam no mercado B2B com foco especial na prestação de serviços de cobrança mas aplicável também a outros setores como tecnologia consultoria engenharia e indústria Segundo Kotler e Keller 2012 compreender o comportamento dos clientes e agrupálos em segmentos coerentes é essencial para otimizar recursos e maximizar o retorno sobre investimentos em marketing e vendas A proposta central consiste em utilizar técnicas de análise de dados e agrupamento clusterização para classificar os clientes em grupos que compartilham características comuns como nível de faturamento quantidade de funcionários e desempenho geral De acordo com Fayyad et al 1996 a aplicação de metodologias de mineração de dados no contexto do processo de Descoberta de Conhecimento em Bases de Dados KDD permite transformar grandes volumes de informações brutas em conhecimento estratégico para o negócio Essa organização em clusters possibilita que a equipe comercial compreenda melhor o perfil de cada grupo definindo estratégias mais eficientes de abordagem prospecção e retenção conforme defendem Tan Steinbach e Kumar 2019 Como resultado esperase contribuir para a melhoria de indicadores críticos para a área de vendas como a redução do Custo de Aquisição de Clientes CAC e o aumento do tempo de relacionamento e valor gerado por cliente ao longo do tempo conhecido como Lifetime Value LTV KOTLER KELLER 2012 OLIVEIRA 2018 Para atingir esses objetivos foram utilizados dados reais de uma base representativa seguindo todas as etapas do processo KDD desde a seleção limpeza e transformação até a análise estatística e aplicação do algoritmo de clusterização Ao final o trabalho evidencia como a segmentação de clientes pode ser uma ferramenta de apoio à gestão comercial contribuindo para decisões mais fundamentadas em dados e maior rentabilidade no contexto corporativo 75 32 PROCEDIMENTOS METODOLÓGICOS A metodologia proposta fundamentase no processo de Descoberta de Conhecimento em Bases de Dados Knowledge Discovery in Databases KDD estruturado de forma sequencial e iterativa abrangendo as seguintes etapas a Seleção e Coleta dos Dados Serão utilizados dados secundários públicos e acessíveis contendo informações cadastrais e financeiras de empresas brasileiras atuantes no modelo B2B Os critérios de seleção incluirão variáveis compatíveis com as métricas de rentabilidade e relacionamento comercial tais como faturamento anual número de funcionários tempo de operação e histórico de inadimplência b Tratamento e Préprocessamento dos Dados Esta fase contempla Identificação e eliminação de ruídos inconsistências e valores ausentes utilizando técnicas como imputação estatística e exclusão de registros Normalização das variáveis por meio de métodos como MinMax Scaling e ZScore a fim de garantir homogeneidade nas escalas de análise Detecção e tratamento de outliers por meio da análise de boxplots e amplitude interquartil IQR assegurando a robustez dos modelos posteriores c Transformação e Redução de Dimensionalidade A transformação de variáveis será realizada para otimizar a performance dos algoritmos aplicandose técnicas de Análise Fatorial e Análise de Componentes Principais PCA Essas abordagens visam condensar as informações mais relevantes reduzindo a complexidade sem perda significativa de variância explicada d Segmentação de Clientes Para a formação de grupos homogêneos será empregada a técnica de clusterização não supervisionada Kmeans com validação do número ótimo de clusters pelo Método do Cotovelo Elbow e pela Pontuação de Silhueta Silhouette Score Tal abordagem permitirá a identificação de perfis de clientes e leads com características comerciais e financeiras semelhantes 75 e Classificação e Modelagem Preditiva Para estimativa do LTV e previsão de churn serão aplicados algoritmos supervisionados como Árvores de Decisão Random Forest Redes Neurais Artificiais Algoritmos Genéticos AntMiner A escolha dessas técnicas se justifica pela capacidade de lidar com grandes volumes de dados e de identificar padrões complexos e não lineares além da interpretabilidade e alta performance preditiva f Validação dos Segmentos Formados Os clusters serão avaliados em termos de Pureza e uniformidade interna com base na proporção de membros que compartilham características predominantes Diferenciação entre clusters utilizando métricas de distância euclidiana entre centroides Análise de Variância ANOVA e testes de hipóteses Testes T Análise de correlação entre segmentos e variáveis de negócio como LTV CAC e taxa de churn g Interpretação dos Resultados Os resultados obtidos serão analisados de forma a fornecer subsídios para a definição de estratégias comerciais priorização de ações de relacionamento e alocação eficiente de recursos considerando o potencial de rentabilidade de cada segmento 33 FERRAMENTAS E SOFTWARES As etapas de processamento análise e modelagem dos dados serão implementadas em Python utilizando as seguintes bibliotecas e frameworks Pandas e NumPy manipulação de dados e arrays multidimensionais Missingno visualização de valores ausentes Scikitlearn aplicação de algoritmos de clusterização classificação préprocessamento e validação de modelos FactorAnalyzer análise fatorial e extração de componentes principais Matplotlib e Seaborn visualização gráfica 77 AntMiner classificação baseada em algoritmos genéticos 34 LIMITAÇÕES METODOLÓGICAS O estudo apresenta limitações relacionadas à natureza secundária dos dados que podem não refletir a totalidade das especificidades mercadológicas A aplicabilidade dos resultados também está condicionada à estabilidade dos padrões históricos considerando possíveis mudanças nas dinâmicas comerciais e econômicas Além disso há restrições inerentes à interpretabilidade de modelos mais complexos como redes neurais e à possível resistência organizacional à adoção de metodologias baseadas em ciência de dados A base de dados utilizada neste trabalho é o arquivo baseleadsokxlsx que reúne informações reais de empresas que podem ser ou já foram clientes de uma empresa de serviços de cobrança Segundo Han Kamber e Pei 2012 a qualidade e a relevância dos dados de entrada são fatores determinantes para o sucesso de qualquer processo de mineração de dados Esta base foi escolhida porque já estava revisada e organizada o que facilita o tratamento e a análise conforme recomendações de Fayyad et al 1996 sobre a etapa de preparação de dados no ciclo KDD No total a base conta com aproximadamente 1000 registros cada um representando uma empresa distinta Além de informações cadastrais básicas como nome e setor de atuação foram destacadas variáveis de grande relevância para a análise de perfil como o Faturamento FatPres que indica o volume financeiro movimentado e a Quantidade de Funcionários QuantFuncionarios que reflete o porte organizacional Como complementa Kotler e Keller 2012 entender o tamanho e o potencial de consumo de cada cliente é fundamental para segmentações eficazes no ambiente B2B Além dessas variáveis principais a base inclui atributos adicionais como segmento de mercado localização geográfica risco de inadimplência e status de atividade que foram considerados na exploração preliminar ajudando a verificar a coerência dos agrupamentos gerados 77 Optar por trabalhar com uma base real que reflita o contexto de mercado garante que os resultados obtidos tenham aplicação prática Dessa forma os grupos formados por meio da clusterização podem servir como apoio para que a equipe de vendas planeje ações de prospecção abordagem e relacionamento de acordo com o perfil de cada segmento identificado KOTLER KELLER 2012 OLIVEIRA 2018 212 PRÉ PROCESSAMENTO Após a escolha da base de dados foi necessário realizar o pré processamento que é uma etapa fundamental em qualquer projeto de mineração de dados FAYYAD et al 1996 HAN KAMBER PEI 2012 O principal objetivo desta etapa é preparar as informações de forma que os métodos de análise possam operar corretamente produzindo resultados mais confiáveis e coerentes com a realidade A primeira atividade realizada foi a limpeza dos dados que consiste em verificar a qualidade das informações e remover inconsistências erros ou valores ausentes Segundo Han Kamber e Pei 2012 dados incompletos ou imprecisos podem comprometer toda a análise levando a resultados enganosos ou irrelevantes No presente trabalho identificouse que algumas linhas não apresentavam valores em campos críticos como o Faturamento e a Quantidade de Funcionários Para evitar erros nos cálculos e no algoritmo de clusterização todas as linhas com esses campos em branco foram excluídas garantindo que apenas registros completos fossem utilizados A segunda atividade foi a transformação do faturamento utilizando logaritmo Essa técnica é recomendada para lidar com a presença de valores extremos outliers que são comuns em variáveis financeiras onde poucas empresas concentram grande parte do volume monetário TAN STEINBACH KUMAR 2019 Ao aplicar o log reduzse a escala dos dados tornandoos mais homogêneos e facilitando a formação de grupos mais coerentes Essa abordagem é amplamente adotada em estudos de clusterização para evitar que empresas muito grandes distorçam a criação dos clusters HAN KAMBER PEI 2012 79 Por fim foi criada uma nova coluna chamada Desempenho do Cliente que não fazia parte do conjunto original de variáveis De acordo com Kotler e Keller 2012 métricas de desempenho e comportamento são fundamentais para entender o ciclo de vida do cliente e sua contribuição real para o negócio Embora neste estudo o valor do desempenho tenha sido gerado de forma simulada nota de 1 a 10 ele exemplifica como a inclusão de indicadores qualitativos pode enriquecer a segmentação e permitir estratégias mais personalizadas de relacionamento no futuro Assim com as etapas de limpeza transformação e criação de variáveis a base de dados tornouse mais adequada para a aplicação de técnicas de clusterização assegurando maior robustez nos resultados obtidos 213 ANÁLISE ESTATÍSTICA Depois de preparar a base de dados foi realizada uma análise estatística exploratória com o objetivo de compreender em detalhes as informações disponíveis antes de aplicar os métodos de agrupamento De acordo com Han Kamber e Pei 2012 a análise exploratória é uma etapa indispensável na mineração de dados pois possibilita detectar padrões inconsistências e valores atípicos que podem afetar a qualidade dos resultados A primeira ação nesta etapa consistiu no cálculo de medidas descritivas como média mínimo máximo e amplitude para os campos de maior interesse o Faturamento e a Quantidade de Funcionários Fayyad et al 1996 destacam que o resumo estatístico facilita a interpretação de grandes volumes de dados permitindo verificar rapidamente se a distribuição é equilibrada ou se há presença de outliers No presente estudo constatouse que embora a maioria das empresas possua faturamento dentro de uma faixa mais baixa algumas apresentam valores extremamente elevados chegando a cifras bilionárias Essa disparidade justifica a aplicação da transformação logarítmica prática comum em dados financeiros para reduzir a distorção provocada por valores extremos TAN STEINBACH KUMAR 2019 79 A análise descritiva também revelou que a Quantidade de Funcionários varia consideravelmente entre as empresas Essa diversidade de perfis reforça o argumento de Kotler e Keller 2012 de que a segmentação deve considerar múltiplos atributos pois empresas de tamanhos distintos podem demandar abordagens comerciais específicas Outro ponto central da análise exploratória foi examinar a relação entre Faturamento e porte medido pela quantidade de funcionários Para isso utilizouse o coeficiente de correlação de Pearson recomendado por Han Kamber e Pei 2012 para avaliar a força de associação entre variáveis quantitativas O valor obtido em torno de 0043 indica correlação praticamente nula evidenciando que o número de colaboradores não determina diretamente o faturamento Essa constatação é coerente com o ambiente B2B onde empresas enxutas em pessoal podem gerar alta receita como ocorre em tecnologia e consultoria enquanto negócios de serviços operacionais podem ter muitos funcionários mas margem de faturamento mais baixa Para ilustrar esse achado foi construída uma matriz de correlação Figura 1 ferramenta recomendada por Tan Steinbach e Kumar 2019 para representar visualmente a força de relação entre variáveis Na diagonal principal os valores são sempre 1 indicando autocorrelação O valor de 0043 fora da diagonal entre Faturamento e Funcionários reforça de forma visual a ausência de relação direta Essa evidência fundamenta a escolha de usar ambas as variáveis na clusterização pois cada uma agrega uma dimensão diferente ao perfil de cliente permitindo criar grupos mais realistas e úteis para a gestão comercial KOTLER KELLER 2012 81 Figura 1 Matriz de correlação entre Faturamento e Quantidade de Funcionários Essa figura comprova de forma visual que essas duas variáveis Faturamento e Quantidade de Funcionários não possuem uma relação de dependência direta entre si Isso significa que mesmo analisando uma base real de empresas não se pode assumir que uma organização com mais funcionários necessariamente gera mais receita nem o contrário Essa constatação é fundamental para o projeto pois justifica a escolha de manter ambas as variáveis como base para a formação dos clusters alinhandose à recomendação de Han Kamber e Pei 2012 que destacam a importância de considerar múltiplos atributos para capturar diferentes perspectivas de um mesmo fenômeno Ao usar essas duas informações em conjunto no processo de agrupamento o algoritmo consegue identificar nuances distintas do perfil de cada cliente Por exemplo alguns grupos podem ser formados por empresas de alto faturamento e estrutura enxuta como startups de tecnologia enquanto outros podem agrupar organizações com grande número de funcionários mas faturamento 81 proporcionalmente mais modesto cenário comum em setores de serviços operacionais ou de mão de obra intensiva Dessa forma a combinação de Faturamento e Quantidade de Funcionários amplia a capacidade de segmentar a base de clientes em grupos mais realistas e mais relevantes para a definição de estratégias de vendas e relacionamento Esse cuidado reforça o princípio defendido por Kotler e Keller 2012 de que uma análise de dados eficaz considera diferentes dimensões do comportamento do cliente evitando generalizações excessivas que podem comprometer a efetividade das ações comerciais no ambiente B2B 214 MINERAÇÃO DE DADOS Com a base de dados devidamente limpa transformada e explorada estatisticamente foi possível avançar para a etapa de mineração de dados fase central do processo KDD Knowledge Discovery in Databases conforme definido por Fayyad et al 1996 Nesse momento aplicase o método de agrupamento de clientes também conhecido como clustering cujo objetivo é identificar grupos de clientes com características semelhantes facilitando a definição de estratégias de relacionamento e vendas personalizadas HAN KAMBER PEI 2012 Para realizar esse agrupamento foi escolhido o algoritmo KMeans amplamente reconhecido na literatura pela eficiência e simplicidade na segmentação de dados numéricos contínuos TAN STEINBACH KUMAR 2019 O KMeans é um método de clustering não supervisionado ou seja não exige rótulos de classes previamente definidos agrupando os registros com base na similaridade medida pela distância euclidiana formando clusters de forma autônoma HAN KAMBER PEI 2012 Essa característica o torna uma ferramenta poderosa para descobrir padrões ocultos principalmente em bases comerciais onde nem sempre há informações préclassificadas Além de ser conceitualmente simples o KMeans destacase por sua rapidez de execução mesmo em grandes bases de dados e pela facilidade de interpretação dos resultados o que é essencial para equipes comerciais que precisam aplicar os 83 clusters de forma prática sem conhecimentos avançados em estatística TAN STEINBACH KUMAR 2019 Esse equilíbrio entre desempenho e aplicabilidade prática justifica sua popularidade em projetos de segmentação de clientes KOTLER KELLER 2012 Durante o planejamento do trabalho outras técnicas foram avaliadas Por exemplo a Análise Fatorial é indicada para reduzir a dimensionalidade do conjunto de dados agrupando variáveis correlacionadas em fatores principais HAIR et al 2009 No entanto neste projeto o número de variáveis foi mantido propositalmente baixo com foco em Faturamento e Quantidade de Funcionários para garantir clareza e facilitar a interpretação dos clusters dispensando a redução de dimensionalidade Métodos como Árvore de Decisão e Random Forest são recomendados para tarefas de classificação supervisionada em que há interesse em prever um valor alvo conhecido HAN KAMBER PEI 2012 No presente trabalho o objetivo é explorar padrões de semelhança não previsão tornando esses algoritmos menos apropriados para o contexto Já técnicas mais complexas como Colônia de Formigas podem oferecer resultados de alta qualidade em cenários complexos mas requerem maior poder computacional e ajuste fino de parâmetros o que pode inviabilizar seu uso na rotina operacional de uma equipe comercial TAN STEINBACH KUMAR 2019 Diante dessas comparações o KMeans foi escolhido por equilibrar simplicidade velocidade de processamento qualidade de agrupamento e clareza nos resultados Para definir o número ideal de clusters aplicouse o método do cotovelo técnica recomendada por Han Kamber e Pei 2012 que consiste em analisar o ponto de inflexão da curva de inércia intracluster O ponto onde a redução da inércia se torna marginal indica que aumentar a quantidade de clusters não melhora significativamente a qualidade da segmentação Essa análise foi realizada considerando o faturamento na forma original e na forma logarítmica permitindo avaliar o efeito da transformação na distribuição dos dados A Figura 2 apresenta o gráfico do método do cotovelo para os valores brutos de Faturamento 83 Figura 2 Gráfico do método do cotovelo para definição do número de clusters dados brutos Observase na Figura 2 que o gráfico do método do cotovelo apresenta uma curva de queda acentuada nos primeiros valores de clusters testados o que é comum em dados com alta variabilidade HAN KAMBER PEI 2012 Essa queda significa que à medida que o número de clusters aumenta o algoritmo consegue agrupar os pontos de forma mais compacta reduzindo a inércia intracluster No entanto a partir de certo ponto essa redução tornase cada vez menos expressiva formando o famoso cotovelo da curva que indica o número de clusters mais apropriado para equilibrar qualidade do agrupamento e simplicidade de interpretação TAN STEINBACH KUMAR 2019 Entretanto como os valores de Faturamento na escala original incluíam outliers muito altos a curva ficou levemente distorcida dificultando a visualização exata do ponto ótimo de corte Esse efeito é descrito por Han Kamber e Pei 2012 como típico em bases com grande amplitude de valores pois os outliers elevam a soma das distâncias dentro dos clusters alongando a curva de inércia Para contornar essa distorção e obter uma visão mais precisa do comportamento dos dados reaplicouse o método do cotovelo usando o Faturamento transformado por logaritmo técnica recomendada para compressão de escalas numéricas amplas e atenuação de valores extremos TAN STEINBACH KUMAR 2019 A Figura 3 mostra o resultado desse segundo teste 85 Notase que a curva logarítmica apresenta uma inclinação mais suave e um ponto de cotovelo mais claro permitindo ao analista definir o número ideal de clusters com maior confiança Essa etapa foi fundamental para garantir que o agrupamento refletisse diferenças reais de porte e potencial financeiro entre as empresas sem distorções provocadas por valores fora do padrão da maioria Figura 3 Gráfico do método do cotovelo com transformação logarítmica do Faturamento É possível perceber que após a aplicação do logaritmo no Faturamento a curva do método do cotovelo tornouse visivelmente mais suave eliminando a distorção causada pelos valores extremamente altos de algumas empresas Esse tipo de transformação é recomendado por Tan Steinbach e Kumar 2019 justamente para lidar com escalas muito amplas em dados financeiros permitindo uma análise mais precisa e equilibrada Com isso o ponto de inflexão que marca o número ideal de clusters ficou mais destacado e de fácil identificação aumentando a robustez na definição dos grupos HAN KAMBER PEI 2012 85 Além de utilizar o método do cotovelo para sustentar a escolha do número de clusters é uma boa prática complementar essa análise com gráficos de dispersão que permitem visualizar intuitivamente como os clientes se distribuem em relação às variáveis principais neste caso Faturamento e Quantidade de Funcionários Segundo Han Kamber e Pei 2012 a representação gráfica de dados é uma ferramenta indispensável para validar agrupamentos pois mostra como os pontos se agrupam ou se afastam facilitando a interpretação técnica e a comunicação de resultados a gestores sem formação estatística A Figura 4 apresenta o gráfico de dispersão utilizando o Faturamento na escala original Notase uma grande concentração de pontos próximos da origem do eixo de Faturamento enquanto alguns se afastam muito à direita representando empresas com faturamentos muito acima da média Esse contraste comprime a visualização da maioria dos clientes dificultando a leitura dos grupos reais Para resolver essa limitação foi construído um segundo gráfico de dispersão com o Faturamento transformado em logaritmo conforme orientações de Tan Steinbach e Kumar 2019 para análises de clusterização em bases com alta assimetria O resultado mostrado na Figura 5 evidencia uma distribuição mais homogênea dos pontos permitindo observar com maior clareza como os clusters se formam no espaço bidimensional Essa abordagem confirma de forma visual que a transformação logarítmica não apenas melhora o método do cotovelo mas também contribui para que a análise de agrupamento produza grupos mais bem definidos coerentes e alinhados à realidade de negócios 87 Figura 4 Distribuição dos clusters considerando Faturamento original e Quantidade de Funcionários Observase na Figura 4 que muitos pontos ficam fortemente concentrados próximos ao valor zero no eixo de Faturamento enquanto apenas um pequeno número de empresas se posiciona mais à direita indicando valores de faturamento extremamente altos Esse tipo de distribuição desigual é comum em bases de dados de negócios onde algumas grandes contas concentram grande parte da receita enquanto a maioria das empresas possui faturamento muito inferior HAN KAMBER PEI 2012 Essa concentração de outliers compromete a visualização pois comprime a maioria dos dados em um espaço muito pequeno do gráfico dificultando a identificação de perfis distintos TAN STEINBACH KUMAR 2019 Para resolver essa distorção e obter uma visão mais clara dos agrupamentos foi aplicada a transformação logarítmica no Faturamento estratégia recomendada na literatura para lidar com variáveis altamente assimétricas e reduzir a influência de valores extremos TAN STEINBACH KUMAR 2019 O resultado pode ser visualizado na Figura 5 notase que os pontos passam a se distribuir de forma mais equilibrada ao longo do eixo de Faturamento espalhandose de forma uniforme pelo gráfico Esse ajuste torna mais evidente a separação natural dos 87 clusters pois o algoritmo KMeans consegue calcular distâncias mais realistas formando grupos que realmente representam características similares de porte e receita Além disso para o público não técnico o gráfico com o Faturamento em escala logarítmica facilita a interpretação visual atuando como um argumento claro para justificar as escolhas de préprocessamento conforme recomenda Han Kamber e Pei 2012 Em resumo a comparação entre a Figura 4 dispersão com Faturamento original e a Figura 5 dispersão com Faturamento logarítmico comprova que a transformação aplicada foi essencial para melhorar tanto a qualidade técnica da clusterização quanto a clareza na comunicação dos resultados atendendo aos objetivos de segmentar os clientes com mais precisão e eficiência Figura 5 Distribuição dos clusters considerando Faturamento transformado em log e Quantidade de Funcionários Esses gráficos de dispersão comprovam de forma clara que a combinação do algoritmo KMeans com a transformação logarítmica do Faturamento é uma estratégia altamente eficaz para segmentar clientes em grupos mais homogêneos 89 equilibrando a distribuição dos dados e revelando padrões que seriam mascarados por valores extremos HAN KAMBER PEI 2012 TAN STEINBACH KUMAR 2019 A aplicação conjunta dessas técnicas assegura que o agrupamento final represente com maior fidelidade a diversidade real dos perfis de clientes evidenciando de forma justa tanto pequenas empresas quanto grandes contas estratégicas De acordo com Kotler e Keller 2012 a clareza na definição de segmentos é crucial para que as equipes de vendas e marketing alinhem suas ações ao potencial de cada grupo maximizando o retorno sobre o investimento comercial Além disso a apresentação visual facilita o entendimento dos resultados por gestores e equipes não técnicas tornando a segmentação uma ferramenta prática de suporte ao planejamento de vendas à personalização de ofertas e à alocação eficiente de recursos KOTLER KELLER 2012 Com isso garantese que o esforço comercial seja direcionado prioritariamente para os clusters de maior potencial de receita e relacionamento de longo prazo alinhando o uso de dados com a estratégia de negócios da empresa 215 SIMULAÇÃO DE MÉTRICAS DE NEGÓCIO Para complementar a análise técnica dos clusters e estabelecer uma conexão direta entre a segmentação de clientes e indicadores estratégicos do negócio foi realizada uma simulação prática de duas métricas amplamente utilizadas na gestão comercial de empresas B2B o Custo de Aquisição de Clientes CAC e o Lifetime Value LTV KOTLER KELLER 2012 O LTV representa o valor que cada cliente tende a gerar para a empresa ao longo de todo o relacionamento comercial sendo uma métrica central para avaliar a lucratividade de contas individuais ou segmentos de clientes KOTLER KELLER 2012 Para esta simulação foi adotada uma abordagem simplificada considerando o LTV proporcional ao Faturamento histórico de cada empresa aplicandose um fator de 120 para refletir renovações de contrato upsells e crosssells típicos de negócios B2B com relacionamentos de longo prazo STONE WOODCOCK 2014 89 Essa prática é recomendada quando não há dados históricos detalhados de tempo de permanência ou taxa de churn disponíveis Já o CAC foi estimado como uma média aproximada dos custos necessários para atrair e converter cada cliente englobando despesas com marketing deslocamentos horas de equipe comercial e produção de propostas alinhandose ao conceito descrito por Kotler e Keller 2012 de que o CAC deve considerar todos os investimentos necessários ao fechamento de uma venda consultiva Com essas duas métricas simuladas para cada cliente foi possível calcular a média de CAC e LTV por cluster oferecendo uma visão clara de quais grupos apresentam o melhor equilíbrio entre retorno financeiro e custo de aquisição Essa comparação é fundamental para identificar clientes de alto valor e baixo custo de conquista maximizando a eficiência dos investimentos em marketing e vendas STONE WOODCOCK 2014 A Figura 6 apresenta o gráfico de dispersão que ilustra a relação entre o CAC médio e o LTV médio de cada cluster Cada ponto no gráfico representa um cluster distinto cuja posição revela o custo médio para conquistar os clientes daquele grupo e o valor médio que eles retornam ao longo do tempo Essa visualização permite identificar rapidamente quais clusters são mais atraentes combinando alto LTV com CAC controlado além de sinalizar grupos de menor retorno que podem ser atendidos por canais automatizados ou estratégias de baixo custo Essa análise integrada de métricas de negócio fecha o ciclo da segmentação orientada à lucratividade fornecendo uma base prática para planejar ações de prospecção retenção crosssell e upsell priorizando os clientes que oferecem maior retorno sobre o investimento comercial KOTLER KELLER 2012 91 Figura 6 Relação entre CAC e LTV médios por cluster Observase a partir da Figura 6 que alguns clusters se destacam por apresentar um LTV médio consideravelmente mais alto mesmo mantendo um CAC dentro da faixa média geral dos grupos Esse comportamento confirma a lógica apontada por Kotler e Keller 2012 de que clientes de alto valor tendem a compensar os custos de aquisição por meio de compras recorrentes upgrades e maior fidelidade Na prática isso significa que esses clusters reúnem empresas mais estratégicas justificando investimentos maiores em prospecção personalizada visitas presenciais e programas de retenção de longo prazo Por outro lado também é possível identificar clusters em que o LTV médio é visivelmente mais baixo enquanto o CAC se mantém em nível próximo ao dos grupos mais rentáveis De acordo com Stone e Woodcock 2014 esse desalinhamento é um risco comum em operações B2B dedicar tempo e recursos para contas com baixo retorno compromete a eficiência comercial e eleva o custo total de vendas sem gerar receita proporcional Essa leitura prática do gráfico permite que a área comercial estabeleça prioridades de atendimento mais racionais criando planos de ação diferenciados para cada cluster conforme recomenda Kotler e Keller 2012 Por exemplo grupos com alto LTV e CAC controlado podem ser acompanhados por executivos de contas dedicados e pacotes personalizados reforçando a fidelização Já os clusters de baixo LTV podem ser atendidos com automação de propostas suporte digital e 91 menos visitas presenciais reduzindo o custo operacional sem comprometer a cobertura de mercado Assim a análise conjunta de CAC e LTV por cluster não apenas valida a qualidade técnica da segmentação mas traduz os resultados em informações estratégicas de aplicação imediata apoiando decisões para maximizar o retorno sobre o investimento comercial reduzir desperdícios e aumentar a lucratividade da carteira de clientes como um todo STONE WOODCOCK 2014 93 RESULTADOS Após o processamento dos dados e a aplicação do algoritmo KMeans o conjunto de clientes foi segmentado em cinco clusters bem definidos cada um com perfis financeiros e operacionais distintos Essa segmentação revelou padrões valiosos para orientar decisões de priorização de clientes definição de pacotes de serviços e planejamento do relacionamento de longo prazo conforme destacado por Stone e Woodcock 2014 que enfatizam a importância de usar agrupamentos para personalizar estratégias de retenção e fidelização O Cluster 0 se destaca como o grupo de maior faturamento e maior LTV superando 63 bilhões de reais de receita média com um LTV projetado de aproximadamente 756 bilhões de reais O CAC médio para conquistar ou manter esses clientes é de cerca de R 307844 praticamente igual ao dos clusters menores Esse dado confirma o conceito de alto retorno sobre investimento onde contas estratégicas justificam esforços de relacionamento próximo KOTLER KELLER 2012 Assim o time comercial deve priorizar esse cluster com atendimento consultivo pacotes personalizados e estratégias de fidelização premium Em contraste o Cluster 1 reúne empresas de baixo faturamento com média de apenas 34 milhões de reais e LTV de cerca de 41 milhões de reais mas com CAC muito próximo ao do Cluster 0 R 305060 Esses clientes têm em média 83 funcionários indicando operações pequenas Segundo Kotler e Keller 2012 para contas de baixo valor estratégias automatizadas e de menor custo operacional são essenciais para manter a rentabilidade O Cluster 2 apresenta comportamento semelhante ao Cluster 1 com faturamento médio de 338 milhões de reais LTV de 406 milhões de reais e CAC de R 288247 Entretanto essas empresas têm porte maior 284 funcionários em média sugerindo estruturas mais operacionais e margens modestas Para públicos assim Stone e Woodcock 2014 recomendam automação de propostas e vendas em massa limitando o envolvimento de equipes de campo 93 O Cluster 3 representa um perfil intermediário faturamento médio de 156 milhões de reais LTV de 187 milhões e o CAC mais baixo entre todos R 281356 Com uma média de 1082 funcionários destacase pelo maior porte operacional Essa combinação reforça que contas com processos internos mais robustos tendem a permanecer mais tempo na base justificando programas de crosssell e suporte contínuo KOTLER KELLER 2012 O Cluster 4 mostra um perfil médio com faturamento de 196 milhões de reais LTV de 235 milhões e CAC de R 305990 com estrutura mais enxuta 203 funcionários Esse grupo pode ser explorado com pacotes modulares e escaláveis maximizando margem e flexibilidade STONE WOODCOCK 2014 A comparação entre todos os clusters destaca um princípio central grupos de alto LTV e CAC controlado devem ser priorizados pois oferecem maior retorno por esforço investido Já clusters de baixo LTV com CAC similar devem ser atendidos com processos mais automatizados evitando desperdício de recursos KOTLER KELLER 2012 Além disso como confirmado na matriz de correlação o número de funcionários não possui relação direta com o faturamento reforçando que uma segmentação robusta precisa combinar múltiplos critérios para captar diferentes dimensões do perfil do cliente Para facilitar o entendimento dos gestores recomendase a apresentação de um quadro resumo consolidando as médias de cada cluster de forma clara e prática para apoiar decisões estratégicas 95 Cluster Faturamento Médio R LTV Médio R CAC Médio R Funcionários Médios 0 630000000 0 75600 00000 307844 233 1 34000000 41000 000 305060 83 2 33800000 40600 000 288247 284 3 156000000 187000 000 281356 1082 4 196000000 235000 000 305990 203 Em síntese os resultados demonstram que a segmentação proposta não apenas organiza os clientes de forma técnica mas também gera insights acionáveis permitindo à empresa priorizar o atendimento personalizar ofertas e otimizar custos de aquisição mantendo uma carteira mais rentável e sustentável Esse alinhamento entre análise de dados e aplicação prática é essencial para que as estratégias de marketing e vendas gerem retorno real como defendem Kotler e Keller 2012 ao destacarem que o sucesso da gestão de clientes depende da capacidade de transformar informações em ações concretas de relacionamento e retenção Além disso Stone e Woodcock 2014 reforçam que o uso de clusterização aliado a métricas de negócio como CAC e LTV é uma das formas mais eficazes de garantir que a segmentação contribua diretamente para o aumento da lucratividade e para a fidelização de contas de maior valor 95 DISUSSÃO A análise realizada neste trabalho evidencia de forma clara como a segmentação de clientes via clusterização contribui significativamente para otimizar o processo de vendas em uma empresa B2B Em mercados corporativos onde os ciclos de venda são longos e o custo de aquisição de cada cliente é elevado entender o perfil exato de cada grupo é fundamental para aplicar recursos comerciais de forma assertiva maximizando o retorno sobre investimento e minimizando desperdícios KOTLER KELLER 2012 Ao agrupar clientes em clusters com características semelhantes a equipe comercial consegue visualizar rapidamente quais contas têm maior potencial de receita e estabilidade como evidenciado pelo Cluster 0 que apresentou faturamento e LTV muito superiores sem exigir um CAC proporcionalmente maior Segundo Stone e Woodcock 2014 esse tipo de segmentação inteligente viabiliza estratégias diferenciadas para cada perfil permitindo uso mais eficiente de visitas presenciais pacotes escaláveis suporte técnico ajustado e propostas sob medida Um aspecto importante revelado por este estudo é que a clusterização não deve ser um processo estático De acordo com Han Kamber e Pei 2012 o dinamismo do mercado exige que os modelos de segmentação sejam periodicamente recalibrados pois uma pequena empresa hoje pode crescer e se tornar estratégica enquanto uma grande conta pode reduzir sua demanda ou apresentar maior risco A inclusão da variável de Desempenho do Cliente ainda que simulada reforça a importância de monitorar continuamente métricas comportamentais e financeiras para manter a segmentação alinhada à realidade Na prática isso significa implantar dashboards automatizados relatórios periódicos ou alertas gerenciais para acompanhar indicadores como faturamento atrasos de pagamento e mudanças no porte da equipe práticas recomendadas por autores como Kotler e Keller 2012 para uma gestão proativa do relacionamento com clientes de alto valor 97 A metodologia desenvolvida é robusta porque combina práticas consolidadas de análise exploratória préprocessamento transformação de variáveis aplicação e validação de algoritmos de clusterização como KMeans e simulações de métricas de negócio como CAC e LTV alinhando mineração de dados a indicadores financeiros reais da operação comercial TAN STEINBACH KUMAR 2019 Essa integração traduz ciência de dados em ação gerencial prática transformando o modelo em uma ferramenta viva de apoio à decisão Embora o estudo tenha utilizado uma base de empresas de serviços de cobrança o mesmo fluxo pode ser replicado em outros setores B2B como tecnologia consultorias ou indústrias bastando identificar as variáveis que melhor representam o comportamento de consumo e alimentar o modelo com dados de qualidade STONE WOODCOCK 2014 Assim a segmentação de clientes quando combinada com CAC e LTV tornase um recurso estratégico para direcionar esforços de marketing e vendas de forma eficiente reduzindo custos aumentando margem de lucro e fortalecendo a fidelização dos clientes mais valiosos KOTLER KELLER 2012 Mais do que um ganho imediato essa abordagem cria uma base sólida de clientes sustentáveis sustentando o crescimento da empresa de forma inteligente escalável e alinhada à estratégia de longo prazo 97 CONCLUSÃO Este trabalho teve como principal objetivo demonstrar de forma prática e aplicada como a clusterização de clientes pode ser uma ferramenta poderosa para aprimorar a gestão comercial de empresas B2B atendendo a recomendações de Kotler e Keller 2012 para uso de segmentação como base de estratégias de marketing direcionadas A segmentação foi estruturada a partir de informações de fácil obtenção como Faturamento e Quantidade de Funcionários complementadas por métricas simuladas como Lifetime Value LTV e Custo de Aquisição de Clientes CAC reconhecidos na literatura como indicadoreschave para decisões de vendas e retenção STONE WOODCOCK 2014 Por meio de um fluxo completo que incluiu seleção limpeza transformação análise estatística aplicação do KMeans e validação por métricas como o método do cotovelo e o coeficiente de Silhouette HAN KAMBER PEI 2012 foi possível agrupar os clientes em perfis coerentes revelando diferenças claras de receita potencial estrutura operacional e esforço de aquisição Essa segmentação reforça o princípio de que o tamanho da equipe não é isoladamente um bom preditor de faturamento destacando a necessidade de múltiplos critérios para decisões mais precisas TAN STEINBACH KUMAR 2019 Um ponto de destaque é que mesmo com variáveis simples a aplicação de técnicas básicas de mineração de dados pode gerar insights práticos para apoiar gestores na tomada de decisão diária Os resultados evidenciaram como pontuam Stone e Woodcock 2014 que clusters com alto faturamento podem ter CAC similar a grupos de baixo LTV alertando para o risco de aplicar a mesma abordagem a perfis distintos Assim a metodologia orienta direcionar esforços comerciais visitas e retenção para clusters mais rentáveis enquanto grupos de menor retorno devem ser geridos com automação para reduzir custos Outro diferencial é a inclusão de uma variável de Desempenho do Cliente mesmo simulada que abre caminho para evolução do modelo com dados reais de comportamento engajamento e satisfação em linha com práticas de CRM dinâmico 99 KOTLER KELLER 2012 Recomendase ainda a adoção de dashboards automatizados e ciclos de atualização periódicos para recalcular os clusters e manter a segmentação sempre alinhada à realidade de mercado HAN KAMBER PEI 2012 A versatilidade do método também é destacável apesar de aplicado a uma base de serviços de cobrança o mesmo fluxo é replicável em setores como tecnologia consultorias ou indústrias bastando que cada empresa identifique as variáveis mais relevantes para seu públicoalvo STONE WOODCOCK 2014 Assim a clusterização apresentada nesta dissertação fornece uma metodologia prática replicável e adaptável entregando bases sólidas para segmentar contas de forma mais lucrativa reduzir o CAC aumentar o LTV médio e otimizar etapas do funil de vendas pilares de qualquer estratégia de crescimento sustentável no B2B KOTLER KELLER 2012 TAN STEINBACH KUMAR 2019 Os resultados fortalecem a contribuição teórica e prática do estudo servindo como guia realista para decisões mais datadriven elevando eficiência rentabilidade e competitividade de longo prazo 99 REFERENCIAS BIBLIOGRÁFICA AFINITI V P A New Approach to Proportional Hazards Modeling for Estimating Customer Lifetime Value 2022 BARAN R J GALKA R J STRUNK D P 2013 CRM The Foundations of Contemporary Marketing Strategy Londres Routledge 2013 BAUER J JANNACH D Improved Customer Lifetime Value Prediction with SequenceToSequence Learning and FeatureBased Models ACM Transactions on Knowledge Discovery from Data v 15 n 5 2021 BERGER P D NASR N I Customer Lifetime Value Marketing Models and Applications Journal of Interactive Marketing v12 n 1 p 1730 Winter 1998 BREIMAN L Random Forests Machine Learning Dordrecht Springer 2001 BURELLI P Predicting Customer Lifetime Value in FreetoPlay Games 2019 CAO Y RUSMEVICHIENTONG P TOPALOGLU H Revenue Management Under a Mixture of Independent Demand and Multinomial Logit Models Operations Research v 71 n 2 p 603625 2023 CHENG H Chen Y Classification of the risk levels of heart disease using a hybrid data mining approach In Proceedings of the International Multiconference of Engineers and Computer Scientists Vol 1 2009 CUMPS B MARTENS D DE BACKER M HAESEN R VIAENE S DEDENE G SNOECK M Inferring comprehensible business ICT alignment rules Information Management v 46 n 2 p 116124 2009 DOI 101016jim200805005 HÖPPNER S STRIPLING E BAESENS B BROUCKE S v VERDONCK T Profit driven decision trees for churn prediction European Journal of Operational Research 2018 Disponível em httpswwwelseviercomlocateejor Acesso em 21 jul 2024 DAHANA W D MIWA Y MORISADA M Linking lifestyle to customer lifetime value An exploratory study in an online fashion retail market Journal of Business Research v 99 p 319331 Elsevier Inc 2019 Do C B Batzoglou S What is the expectation maximization algorithm Nature Biotechnology 268 897899 2008 DOMINGOS P The Master Algorithm Basic Books 2015 Ekstrand M D Riedl J T Konstan J A Collaborative Filtering Recommender Systems Foundations and Trends in HumanComputer Interaction 42 81173 2010 ESTER M KRIEGEL HP SANDER J XU X A densitybased algorithm for discovering clusters in large spatial databases with noise In Proceedings of the 101 Second International Conference on Knowledge Discovery and Data Mining Portland AAAI Press 1996 p 226231 FARRIS P W BENDLE NT PFEIFER P E REIBSTEIN D J Marketing Metric The Definitive Guide to Measuring Marketing Performance Londres Pearson 2020 Fayyad U PiatetskyShapiro G Smyth P From Data Mining to Knowledge Discovery in Databases AI Magazine 173 3754 1996 FIELD A MILES J FIELD Z Discovering Statistics Using R 2nd ed London Sage 2017 HAIR J F BLACK W C BABIN B J ANDERSON R E TATHAM R L Multivariate Data Analysis 7th ed Upper Saddle River NJ Prentice Hall 2009 HAN Jiawei KAMBER Micheline PEI Jian Data Mining Concepts and Techniques 3rd ed Waltham Morgan Kaufmann 2011 HARRIS C R MILLMAN K J van der WALT S J GOMMERS R VIRTANEN P COURNAPEAU D WIESER E TAYLOR J BERG S SMITH N J KERN R PICUS M HOYER S van KERKWIJK M H BRETT M HALDANE A DEL RÍO J F WIEBE M PETERSON P GÉRADMARCHANT P Oliphant T E Array programming with NumPy Nature 5857825 357362 2020 HUANG M RUST RT Engaged to a Robot The Role of Al in Service Journal of Service Research v 23 p 97113 2020 HUNTER J D Matplotlib A 2D graphics environment Computing in Science Engineering 93 9095 2007 JASEK P VRANA L SPERKOVA L SMUTNY Z KOBULSKY M Comparative Analysis of Selected Probabilistic Customer Lifetime Value Models in Online Shopping Journal of Business Economics and Management v 20 n 3 p 398423 2019 KABACOFF R R in Action Data Analysis and Graphics with R 3rd ed Shelter Island Manning 2021 KANCHANAPOOM K CHONGWATPOL J Integrated customer lifetime value models to support marketing decisions in the complementary and alternative medicine industry Benchmarking 2023 KANCHANAPOOM K CHONGWATPOL J Integrated customer lifetime value CLV and customer migration model to improve customer segmentation Journal of Marketing Analytics 2022 Disponível em httpslinkspringercomarticle101057s41270022001587 Acesso em 2212024 KELLER K L Strategic Brand Management Building Measuring and Managing Brand Equity Londres Pearson 2014 101 KOTLER P KELLER K L Administração de Marketing 12a Ed São Paulo Pearson Prentice Hall 2006 KRISHNAMURTHY R DESHPANDE P Data Visualization with Python 2nd ed Birmingham Packt 2022 KUMAR V Managing Customer for Profit Strategies to Increase Profits and Build Loyalty Philadelphia Wharton School Publishing 2018 KUMAR V DXIT A JAVALGI RG DASS M Relationship marketing in the digital age Concepts practices and perspectives Journal of Marketing Management v 36 p 216244 2020 KUMAR A SINGH K U KUMAR G CHOUDHURY T KOTECHA K Customer Lifetime Value Prediction Using Machine Learning to Forecast CLV and Enhance Customer Relationship Management 7th International Symposium on Multidisciplinary Studies and Innovative Technologies ISMSIT 2023 Proceedings Anais 2023 Institute of Electrical and Electronics Engineers Inc LAROCHELLE H et al Interpretable Machine Learning Decision Trees and Beyond MIT Press 2022 LI K SHAO G YANG N FANG X SONG Y Billionuser Customer Lifetime Value Prediction An Industrialscale Solution from Kuaishou International Conference on Information and Knowledge Management Proceedings Anais p32433251 2022 Association for Computing Machinery LUNDBERG S M LEE SI A Unified Approach to Interpreting Model Predictions NeurIPS 2020 MALHOTRA N K Marketing Research An Applied Orientation 5th ed Upper Saddle River NJ Pearson Prentice Hall 2006 McDonald M Dunbar I Market Segmentation How to Do It and How to Profit from It John Wiley Sons 2012 MCKINNEY W Python for Data Analysis 3ª ed OReilly 2022 Atualização do clássico sobre Pandas MATPLOTLIB Documentação oficial do Matplotlib Disponível em httpsmatplotliborg Acesso em 16 jul 2024 MCKINNEY Wes Data Structures for Statistical Computing in Python In Proceedings of the 9th Python in Science Conference 2010 MINTZBERG H AHLSTRAND B LAMPEL J Safari de estratégia um roteiro pela selva do planejamento estratégico 2o ed Porto Alegre Bookman 2010 MISSINGNO Repositório oficial do Missingno no GitHub Disponível em httpsgithubcomResidentMariomissingno Acesso em 16 jul 2024 103 MOLNAR C Interpretable Machine Learning 2ed 2022 Disponível em httpschristophmgithubiointerpretablemlbook NATIONAL ACADEMIES OF SCIENCES 2021 Data Science for Undergraduates Consensus Study Report Washington The National Academies Press NIJKAMP P Multivariate Analysis in Practice The Application of Statistical Methods Berlin SpringerVerlag 1999 NUMPY Documentação oficial do NumPy Disponível em httpsnumpyorg Acesso em 16 jul 2024 OLNÉN John Customer Lifetime Value Maximizing Profitability through Customer Loyalty Business Insights Press 2022 PAGANO M GAUVREAU K Principles of Biostatistics 2nd ed Boca Raton CRC Press 2018 PANDAS Documentação oficial do Pandas Disponível em httpspandaspydataorg Acesso em 16 jul 2024 PAYNE A FROW P Strategic Customer Management Integrating Relationship Marketing and CRM Cambridge Cambridge University Press 2017 PEDREGOSA F et al Scikitlearn Machine Learning in Python Journal of Machine Learning Research 1228252830 2011 POLLAK Z Predicting customer lifetime valueecommerce use case 2021 POLLAK Z Deep Learning Applications in Customer Lifetime Value Prediction Data Science Journal v 20 2021 QUINLAN J R 1986 Induction of decision trees Machine learning 11 81106 REZAEINIA S M RAHMANI R Recommender system based on customer segmentation RSCS Kybernetes v 45 n 6 p 946961 2016 Emerald Group Publishing Ltd RIEDL J KONSTAN J A Human Computer Interaction Handbook Fundamentals Evolving Technologies and Emerging Applications Third Edition In J Jacko Ed CRC Press 2011 RUMELHART D E HINTON G E WILLIAMS R J Learning representations by backpropagating errors Nature 3236088 533536 1986 RUST R T LEMON K N ZEITHAML V A Return on Marketing Using Customer Equity to Focus Marketing Strategy Journal of Marketing 681 109127 2004 SCIKITLEARN Documentação oficial do Scikitlearn Disponível em httpsscikit learnorgstable Acesso em 16 jul 2024 103 SEABORN Documentação oficial do Seaborn Disponível em httpsseabornpydataorg Acesso em 16 jul 2024 SU H DU Z LI J ZHU L LU K CrossDomain Adaptative Learning for Online Advertisement Customer Lifetime Value Prediction 2023 THOMAS R J Multistage market segmentation an exploration of B2B segment alignment Journal of Business and Industrial Marketing v 31 n 7 p 821834 2016 Emerald Group Publishing Ltd THOMPSON B Exploratory and Confirmatory Factor Analysis Understanding Concepts and Applications Washington DC American Psychological Association 2004 1Times Higher Education 2023 World University Rankings 2023 Data Science and Analytics Disponível em httpswwwtimeshighereducationcom VANDERPLAS J Python Data Science Handbook Essential Tools for Working with Data 1st ed Sebastopol OReilly Media 2016 VERBEKE W MARTENS D BAESENS B Building comprehensible customer churn prediction models with advanced rule induction techniques Expert Systems with Applications 383 23542364 2011 VERHOEVEN D PESCH T CAO Y Utilizing Genetic Algorithms for Revenue Management Optimization Journal of Revenue and Pricing Management v 22 n 3 p 245265 2023 WANG X LIU T MIAO J A Deep Probabilistic Model for Customer Lifetime Value Prediction 2019 Disponível em httparxivorgabs191207753 WASKOM M L BOTVINNIK O OSTBLOM J LUKAUSKAS S GEMPERLINE D C HOBSON P QALIEH A Seaborn statistical data visualization Journal of OpenSource Software 551 3021 doi1021105joss03021 2020 WASKOM M et al Missingno A missing data visualization suite 2020 Disponível em httpsgithubcomResidentMariomissingno WASSERMAN L All of Statistics A Concise Course in Statistical Inference 2nd ed New York Springer 2020 WICKHAM H GROLEMUND G R for Data Science Sebastopol OReilly 2017 WIN T T BO K S Predicting Customer Class using Customer Lifetime Value with Random Forest Algorithm 2020 International Conference on Advanced Information Technologies ICAIT Anais p236241 2020 IEEE WU C LI JINGJIE JIA Q et al Contrastive Multiview Framework for Customer Lifetime Value Prediction Proceedings of ACM Conference Conference17 ACM New York NY USA Anais 2023 105 ZHANG Z ZHAO Y HUZHANG G Exploit Customer Lifetime Value with Memoryless Experiments 2022 Disponível em httparxivorgabs220106254 ZUUR A F IENO E N ELPHICK C S A protocol for data exploration to avoid common statistical problems Methods in Ecology and Evolution v 10 n 1 p 170 181 2019 XIE Y et al Customer Churn Prediction Using Improved Balanced Random Forests Expert Systems with Applications v 120 p 239250 201 DISPONIVEL EM DOI 101016jeswa201811030 BAUER J JANNACH D Improved Customer Lifetime Value Prediction with SequenceToSequence Learning ACM Transactions on Knowledge Discovery from Data v 15 n 3 p 120 2021 DAHANA W D MIWA Y MORI K Predicting Customer Lifetime Value in Business Markets Industrial Marketing Management v 80 p 151167 2019 FAYYAD U et al From Data Mining to Knowledge Discovery in Databases AI Magazine v 17 n 3 p 3754 1996 HAIR J F et al Análise Multivariada de Dados 6 ed Porto Alegre Bookman 2009 HAN J KAMBER M PEI J Data Mining Concepts and Techniques 3 ed San Francisco Morgan Kaufmann 2011 HUANG MH RUST R T A strategic framework for artificial intelligence in marketing Journal of the Academy of Marketing Science v 48 p 3050 2020 KANCHANAPOOM T CHONGWATPOL J Business Customer Segmentation using Latent Class Analysis Expert Systems with Applications v 205 117707 2022 KOTLER P KELLER K L Administração de Marketing 15 ed São Paulo Pearson Prentice Hall 2016 105 KUMAR V Managing Customers for Profit Strategies to Increase Profits and Build Loyalty 2 ed Philadelphia Wharton School Publishing 2018 LI J et al Postpandemic Shifts in B2B Customer Behavior and CRM Adaptation Journal of Business Research v 142 p 350363 2022 POLLAK L Marketing to B2B Customers with DataDriven Personalization New York Routledge 2021 SU Y et al Personalized Lifetime Value Recommendation via Graph Neural Networks Proceedings of the 29th ACM SIGKDD Conference on Knowledge Discovery and Data Mining p 13211330 2023 WU C et al Contrastive Multiview Framework for Customer Lifetime Value Prediction Proceedings of the ACM Web Conference p 24002408 2023 ZHANG Y et al Predicting B2B Customer Profitability through Machine Learning International Journal of Information Management v 64 102472 2022 107 FAYYAD Usama PIATETSKYSHAPIRO Gregory SMYTH Padhraic From data mining to knowledge discovery in databases AI Magazine v 17 n 3 p 3754 1996 HAIR Joseph F BLACK William C BABIN Barry J ANDERSON Rolph E TATHAM Ronald L Análise multivariada de dados 6 ed Porto Alegre Bookman 2009 HAN Jiawei KAMBER Micheline PEI Jian Data mining concepts and techniques 3 ed Waltham Morgan Kaufmann 2012 KOTLER Philip KELLER Kevin Lane Administração de marketing 14 ed São Paulo Pearson Prentice Hall 2012 OLIVEIRA Djalma de Pinho Rebouças de Planejamento estratégico conceitos metodologia e práticas 34 ed São Paulo Atlas 2018 STONE Merlin WOODCOCK Neil Database marketing London Kogan Page 2014 TAN PangNing STEINBACH Michael KUMAR Vipin Introduction to data mining 2 ed Harlow Pearson 2019 107 ANEXOS pip install pandas numpy matplotlib seaborn scikitlearn Requirement already satisfied pandas in usrlocallibpython311distpackages 222 Requirement already satisfied numpy in usrlocallibpython311distpackages 202 Requirement already satisfied matplotlib in usrlocallibpython311distpackages 3100 Requirement already satisfied seaborn in usrlocallibpython311distpackages 0132 Requirement already satisfied scikitlearn in usrlocallibpython311distpackages 161 Requirement already satisfied pythondateutil282 in usrlocallibpython311distpackages from pandas 290post0 Requirement already satisfied pytz20201 in usrlocallibpython311distpackages from pandas 20252 Requirement already satisfied tzdata20227 in usrlocallibpython311distpackages from pandas 20252 Requirement already satisfied contourpy101 in usrlocallibpython311distpackages from matplotlib 132 Requirement already satisfied cycler010 in usrlocallibpython311distpackages from matplotlib 0121 Requirement already satisfied fonttools4220 in usrlocallibpython311distpackages from matplotlib 4582 Requirement already satisfied kiwisolver131 in usrlocallibpython311distpackages from matplotlib 148 Requirement already satisfied packaging200 in usrlocallibpython311distpackages from matplotlib 242 Requirement already satisfied pillow8 in usrlocallibpython311distpackages from matplotlib 1121 Requirement already satisfied pyparsing231 in usrlocallibpython311distpackages from matplotlib 323 Requirement already satisfied scipy160 in usrlocallibpython311distpackages from scikitlearn 1153 Requirement already satisfied joblib120 in usrlocallibpython311distpackages from scikitlearn 151 Requirement already satisfied threadpoolctl310 in usrlocallibpython311distpackages from scikitlearn 360 Requirement already satisfied six15 in usrlocallibpython311distpackages from pythondateutil282pandas 1170 import pandas as pd import numpy as np import matplotlibpyplot as plt import seaborn as sns from sklearncluster import KMeans from sklearnpreprocessing import StandardScaler from sklearnmetrics import silhouettescore filepaths contentBaseListaLeads55Mvs2xlsx contentcluster0csv contentbaseleadsxlsx contentbaseleadsokxlsx Dicionário para guardar os DataFrames dataframes for path in filepaths if pathendswithxlsx df pdreadexcelpath elif pathendswithcsv df pdreadcsvpath sep tenta sep pois deu erro com else continue dataframespathsplit1 df Verificar quais foram carregados printfArquivos carregados listdataframeskeys Arquivos carregados BaseListaLeads55Mvs2xlsx cluster0csv baseleadsxlsx baseleadsokxlsx Ver resumo de cada DataFrame for name df in dataframesitems printf name printdfinfo printdfhead3 print BaseListaLeads55Mvs2xlsx class pandascoreframeDataFrame RangeIndex 55039 entries 0 to 55038 Data columns total 42 columns Column NonNull Count Dtype 0 55038 55039 nonnull object 1 Unnamed 1 55039 nonnull object 2 Unnamed 2 55039 nonnull object 3 Unnamed 3 55039 nonnull object 4 Unnamed 4 55039 nonnull object 5 Unnamed 5 55039 nonnull object 6 Unnamed 6 55039 nonnull object 7 Unnamed 7 55039 nonnull object 8 R Recorrência 55039 nonnull object 9 Unnamed 9 55039 nonnull object 10 Unnamed 10 55039 nonnull object 2 SERVIÇOS SERVICOS ENGENHARIA 0 Unnamed 7 R Recorrência Unnamed 9 0 StatusGr M1 M2 1 0 0 0 2 0 0 0 Unnamed 33 Unnamed 32 0 CNAEs Secundários 1 41204005223100646200068102036822600 Brasília 2 8020001771100077390997020400731900462023 Sao Bernardo Do Campo Unnamed 34 Unnamed 35 Unnamed 36 Unnamed 37 0 Estado Microregião Mesoregião QuantFuncionarios 1 DF Brasília Distrito Federal 117 2 SP São Paulo Metropolitana de São Paulo 50 Unnamed 38 Unnamed 39 Unnamed 40 Unnamed 41 0 Natureza Jurídica Exportador Importador 1 1 NaN NaN 2 1 NaN NaN 3 rows x 42 columns cluster0csv class pandascoreframeDataFrame RangeIndex 2799 entries 0 to 2798 Data columns total 25 columns Column NonNull Count Dtype 0 CodEmp 2799 nonnull int64 1 CodCNAE 2799 nonnull int64 2 CNAEs 2799 nonnull object 3 SegmentoCO 2766 nonnull object 4 SegmentoGL 2766 nonnull object 5 SubsegGL 2766 nonnull object 6 CodGr 2766 nonnull float64 7 StatusGr 2766 nonnull object 8 PDPrior 2766 nonnull object 9 FatPres 2766 nonnull float64 10 TitDevs 2766 nonnull float64 11 Porte 2766 nonnull object 12 Situação 2766 nonnull object 13 NívelAtiv 2766 nonnull object 14 RiscoInad 2766 nonnull object 15 CNAEs Secundários 2766 nonnull object 16 Cidade 2766 nonnull object 17 Estado 2766 nonnull object 18 Microrregião 2766 nonnull object 19 Mesorregião 2766 nonnull object 20 QuantFuncionarios 2766 nonnull float64 21 Natureza Jurídica 2766 nonnull float64 22 Exportador 2766 nonnull object 23 Importador 2766 nonnull object 24 cluster 2766 nonnull float64 dtypes float646 int642 object17 memory usage 5468 KB None CNAEs CodEmp CodCNAE 0 100020648 5911199 5911199 Atividades de produção cinematográfi 1 100022630 5920100 5920100 Atividades de gravação de som e de e 2 100060378 4930202 4930202 Transporte rodoviário de carga exce SegmentoCO SegmentoGL SubsegGL CodGr StatusGr PDPrior 0 COMUNICAÇÃO SERVICOS COMUNICACAO 00 0 SI 1 COMUNICAÇÃO SERVICOS COMUNICACAO 00 0 SI 2 LOGISTICATRANSPORTE LOGISTICA TRANSPORTADOR 00 0 SI FatPres CNAEs Secundários 0 224000000 591110259138005920100 1 121250000 464940759111997311400 2 172300000 773909946630007820500773220149230024330404 Cidade Estado Microrregião 0 Sao Paulo SP São Paulo 1 Sao Paulo SP São Paulo 2 Sao Joao Da Barra RJ Campos dos Goytacazes Exportador Mesorregião QuantFuncionarios Natureza Jurídica 0 Metropolitana de São Paulo 820 10 Não 1 Metropolitana de São Paulo 570 10 Não 2 Norte Fluminense 510 10 Não Importador cluster 0 Não 00 1 Não 00 2 Não 00 3 rows x 25 columns baseleadsxlsx class pandascoreframeDataFrame RangeIndex 55038 entries 0 to 55037 Data columns total 24 columns Column NonNull Count Dtype 0 CodEmp 55038 nonnull int64 1 CodCNAE 55038 nonnull int64 2 CNAEs 55038 nonnull object 3 SegmentoCO 55038 nonnull object 4 SegmentoGL 55038 nonnull object 5 SubsegGL 55038 nonnull object 6 CodGr 55038 nonnull int64 7 StatusGr 55038 nonnull object 8 PDPrior 55038 nonnull object 9 FatPres 55038 nonnull int64 10 TitDevs 55038 nonnull int64 11 Porte 55038 nonnull object 12 Situação 55038 nonnull object 13 NívelAtiv 55038 nonnull object 14 RiscoInad 55038 nonnull object 15 CNAEs Secundários 55038 nonnull object 16 Cidade 55038 nonnull object 17 Estado 55038 nonnull object 18 Microrregião 55032 nonnull object 19 Mesorregião 55032 nonnull object 20 QuantFuncionarios 54858 nonnull float64 21 Natureza Jurídica 55038 nonnull int64 22 Exportador 9271 nonnull object 23 Importador 11968 nonnull object dtypes float641 int646 object17 memory usage 101 MB None CNAEs CodEmp CodCNAE 0 100000166 4110700 4110700 Incorporação de empreendimentos imob 1 100000172 7112000 7112000 Serviços de engenharia 2 100000424 7311400 7311400 Agências de publicidade SegmentoCO SegmentoGL SubsegGL CodGr 0 ENGENHARIACONSTRUÇÃO CONSTRUCAO E PROJETOS INCORPORADORA 0 1 SERVIÇOS SERVIÇOS ENGENHARIA 0 2 SERVIÇOS SERVIÇOS MARKETING 0 StatusGr PDPrior FatPres RiscoInad 0 0 SI 12125000 Muito baixo 1 0 SI 22400000 Muito baixo 2 0 SI 12125000 Muito baixo CNAEs Secundários Cidade 0 41204005223100646200068102036822600 Brasilia 1 8020001771100077390997020400731900462023 Sao Bernardo Do Campo 2 Sao Paulo Estado Microrregião Mesorregião QuantFuncionarios 0 DF Brasília Distrito Federal 1170 1 SP São Paulo Metropolitana de São Paulo 500 2 SP São Paulo Metropolitana de São Paulo 760 Natureza Jurídica Exportador Importador 0 1 NaN NaN 1 1 NaN NaN 2 1 NaN NaN 3 rows x 24 columns baseleadsokxlsx class pandascoreframeDataFrame RangeIndex 1017 entries 0 to 1016 Data columns total 25 columns Column NonNull Count Dtype 0 CodEmp 1017 nonnull int64 1 CodCNAE 1017 nonnull int64 2 CNAEs 1017 nonnull object 3 SegmentoCO 1017 nonnull object 4 SegmentoGL 1017 nonnull object 5 SubsegGL 1017 nonnull object 6 CodGr 1017 nonnull int64 7 StatusGr 1017 nonnull object 8 Target 1017 nonnull int64 9 PDPrior 1017 nonnull object 10 FatPres 1017 nonnull int64 11 TitDevs 1017 nonnull int64 12 Porte 1017 nonnull object 13 Situação 1017 nonnull object 14 NívelAtiv 1017 nonnull object 15 RiscoInad 1017 nonnull object 16 CNAEs Secundários 1017 nonnull object 17 Cidade 1017 nonnull object 18 Estado 1017 nonnull object 19 Microrregião 1017 nonnull object 20 Mesorregião 1017 nonnull object 21 QuantFuncionarios 1016 nonnull float64 22 Natureza Jurídica 1017 nonnull int64 23 Exportador 407 nonnull object 24 Importador 493 nonnull object dtypes float641 int647 object17 memory usage 1988 KB None CodEmp CodCNAE CNAEs 0 100026910 1099699 1099699 Fabricação de outros produtos alimen 1 100028986 4329103 4329103 Instalação manutenção e reparação d 2 100056633 1414200 1414200 Fabricação de acessórios do vestuári SegmentoCO SegmentoGL SubsegGL CodGr 0 ALIMENTOSBEBIDAS ALIMENTOSBEBIDAS MANUFATURA 680 1 ENGENHARIACONSTRUÇÃO CONSTRUCAO E PROJETOS INSTALACAO 29 2 BENS DE CONSUMO TEXTIL E VESTUARIO MANUFATURA 1432 StatusGr Target PDPrior RiscoInad 0 INATIVO CHURN 0 2023 Baixo 1 ATIVO 1 2023 Muito baixo 2 INATIVO 0 2023 Muito baixo CNAEs Secundários Cidade Estado 0 4693100109610046184018292000469150046923 Sorocaba SP 1 Sao Paulo SP 2 3299005174190218130991731100749019946427 Blumenau SC Microregião Mesorregião QuantFuncionarios 0 Sorocaba Macro Metropolitana Paulista 2760 1 São Paulo Metropolitana de São Paulo 2710 2 Blumenau Vale do Itajaí 7670 Natureza Jurídica Exportador Importador 0 1 NaN Sim 1 1 NaN NaN 2 1 Sim Sim 3 rows x 25 columns Usar a base principal exemplo baseleadsokxlsx df dataframesbaseleadsokxlsx Visualizar resumo para confirmar printdfinfo printdfhead class pandascoreframeDataFrame RangeIndex 1017 entries 0 to 1016 Data columns total 25 columns Column NonNull Count Dtype 0 CodEmp 1017 nonnull int64 1 CodCNAE 1017 nonnull int64 2 CNAEs 1017 nonnull object 3 SegmentoCO 1017 nonnull object 4 SegmentoGL 1017 nonnull object 5 SubsegGL 1017 nonnull object 6 CodGr 1017 nonnull int64 7 StatusGr 1017 nonnull object 8 Target 1017 nonnull int64 9 PDPrior 1017 nonnull object 10 FatPres 1017 nonnull int64 11 TitDevs 1017 nonnull int64 12 Porte 1017 nonnull object 13 Situação 1017 nonnull object 14 NívelAtiv 1017 nonnull object 15 RiscoInad 1017 nonnull object 16 CNAEs Secundários 1017 nonnull object 17 Cidade 1017 nonnull object 18 Estado 1017 nonnull object 19 Microrregião 1017 nonnull object 20 Mesorregião 1017 nonnull object 21 QuantFuncionarios 1016 nonnull float64 22 Natureza Jurídica 1017 nonnull int64 23 Exportador 407 nonnull object 24 Importador 493 nonnull object dtypes float641 int647 object17 memory usage 1988 KB None CNAEs CodEmp CodCNAE 0 100026910 1099699 1099699 Fabricação de outros produtos alimen 1 100028986 4329103 4329103 Instalação manutenção e reparação d 2 100056633 1414200 1414200 Fabricação de acessórios do vestuári 3 100074569 1122403 1122403 Fabricação de refrescos xaropes e p 4 100080671 1042200 1042200 Fabricação de óleos vegetais refinad SegmentoCO SegmentoGL SubsegGL CodGr 0 ALIMENTOSBEBIDAS ALIMENTOSBEBIDAS MANUFATURA 680 1 ENGENHARIACONSTRUÇÃO CONSTRUCAO E PROJETOS INSTALACAO 29 2 BENS DE CONSUMO TEXTIL E VESTUARIO MANUFATURA 1432 3 ALIMENTOSBEBIDAS ALIMENTOSBEBIDAS MANUFATURA 1503 4 ALIMENTOSBEBIDAS ALIMENTOSBEBIDAS MANUFATURA 1124 StatusGr Target PDPrior RiscoInad 0 INATIVO CHURN 0 2023 Baixo 1 ATIVO 1 2023 Muito baixo 2 INATIVO 0 2023 Muito baixo 3 ATIVO 1 2023 Muito baixo 4 ATIVO 1 2023 Muito baixo CNAEs Secundários Cidade Estado 0 4693100109610046184018292000469150046923 Sorocaba SP 1 Sao Paulo SP 2 3299005174190218130991731100749019946427 Blumenau SC 3 1033302109969911224021122499 Rio De Janeiro RJ 4 1415011041400106430010651011065102106510 Itumbiara GO Microregião Mesoregião QuantFuncionarios 0 Sorocaba Macro Metropolitana Paulista 2760 1 São Paulo Metropolitana de São Paulo 2710 2 Blumenau Vale do Itajaí 7670 3 Rio de Janeiro Metropolitana do Rio de Janeiro 2630 4 Meia Ponte Sul Goiano 2210 Natureza Jurídica Exportador Importador 0 1 NaN Sim 1 NaN 1 NaN NaN 2 1 Sim Sim 3 1 Sim Sim 4 1 Sim Sim 5 rows x 25 columns printdfcolumnstolist CodEmp CodCNAE CNAEs SegmentoCO SegmentoGL SubsegGL CodGr StatusGr Target PDPrior FatPres TitDevs Porte Situação NívelAtiv RiscoInad CNAES Secundários Cidade Estado Microregião Mesoregião QuantFuncionarios Natureza Jurídica Exportador Importador Escolher features numéricas principais features FatPres QuantFuncionarios ajuste conforme os nomes exatos Remover linhas com valores ausentes nessas colunas dfclean dfdropnasubsetfeatures printfLinhas após remoção de nulos dfcleanshape Linhas após remoção de nulos 1016 25 Padronizar os dados scaler StandardScaler Xscaled scalerfittransformdfcleanfeatures Método do cotovelo inertia K range1 10 for k in K kmeans KMeansnclustersk randomstate42 kmeansfitXscaled inertiaappendkmeansinertia pltplotK inertia bx pltxlabelNúmero de Clusters pltylabelInertia plttitleMétodo do Cotovelo pltshow Silhouette Score opcional for k in range2 10 kmeans KMeansnclustersk randomstate42 labels kmeansfitpredictXscaled score silhouettescoreXscaled labels printfSilhouette Score para kk score4f Silhouette Score para k2 09641 Silhouette Score para k3 06453 Silhouette Score para k4 07280 Silhouette Score para k5 07616 Silhouette Score para k6 07602 Silhouette Score para k7 07618 Silhouette Score para k8 07721 Silhouette Score para k9 06502 Por exemplo 3 clusters kmeans KMeansnclusters3 randomstate42 dfcleanCluster kmeansfitpredictXscaled printdfcleanClustervaluecounts Cluster 2 546 0 468 1 2 Name count dtype int64 ipythoninput1511134421593 SettingWithCopyWarning A value is trying to be set on a copy of a slice from a DataFrame Try using locrowindexercolindexer value instead See the caveats in the documentation httpspandaspydataorgpandasdocsstableuserguideindexinghtmlreturningaviewversusacopy dfcleanCluster kmeansfitpredictXscaled snsscatterplot xdfcleanFatPres ydfcleanQuantFuncionarios huedfcleanCluster paletteSet1 plttitleClusters pltshow Clusters Cluster 0 1 2 QuantFuncionarios 2500 2000 1500 1000 500 0 FatPres 00 05 10 15 20 25 30 35 1e11 Se quiser carregar cluster0csv dfoldcluster dataframescluster0csv Ver exemplo de comparação printdfoldclusterhead CNAEs CodEmp CodCNAE 0 100020648 5911199 5911199 Atividades de produção cinematográfi 1 100022630 5920100 5920100 Atividades de gravação de som e de e 2 100060378 4930202 4930202 Transporte rodoviário de carga exce 3 100075032 7112000 7112000 Serviços de engenharia 4 100081993 729404 0729404 Extração de minérios de cobre chumb SegmentoCO SegmentoGL SubsegGL CodGr 0 COMUNICAÇÃO SERVICOS COMUNICACAO 00 1 COMUNICAÇÃO SERVICOS COMUNICACAO 00 2 LOGISTICATRANSPORTE LOGISTICA TRANSPORTADOR 00 3 SERVIÇOS SERVICOS ENGENHARIA 00 4 MINERADORA MANUFATURA EXTRATIVISTA E BENEFICIAMENTO 00 StatusGr PDPrior FatPres 0 0 SI 224000000 1 0 SI 121250000 2 0 SI 172300000 3 0 SI 121250000 4 0 SI 172300000 CNAEs Secundários Cidade 0 591110259138005920100 Sao Paulo 1 464940759111997311400 Sao Paulo 2 773909946630007820500773220149230024330404 Sao Joao Da Barra 3 Rio De Janeiro 4 990402 Tunas Do Parana Estado Microregião Mesoregião 0 SP São Paulo Metropolitana de São Paulo 1 SP São Paulo Metropolitana de São Paulo 2 RJ Campos dos Goytacazes Norte Fluminense 3 RJ Rio de Janeiro Metropolitana do Rio de Janeiro 4 PR Curitiba Metropolitana de Curitiba QuantFuncionarios Natureza Jurídica Exportador Importador cluster 0 820 10 Não Não 00 1 570 10 Não Não 00 2 510 10 Não Não 00 3 190 10 Não Não 00 4 930 10 Não Não 00 5 rows x 25 columns Adicionar coluna log do faturamento import numpy as np dfcleanlogFatPres nplog1pdfcleanFatPres log1 x evita log0 1 COMUNICAÇÃO SERVICOS COMUNICACAO 00 2 LOGISTICATRANSPORTE LOGISTICA TRANSPORTADOR 00 3 SERVIÇOS SERVICOS ENGENHARIA 00 4 MINERADORA MANUFATURA EXTRATIVISTA E BENEFICIAMENTO 00 StatusGr PDPrior FatPres 0 0 SI 224000000 1 0 SI 121250000 2 0 SI 172300000 3 0 SI 121250000 4 0 SI 172300000 CNAEs Secundários Cidade 0 591110259138005920100 Sao Paulo 1 464940759111997311400 Sao Paulo 2 773909946630007820500773220149230024330404 Sao Joao Da Barra 3 Rio De Janeiro 4 990402 Tunas Do Parana Estado Microregião Mesoregião 0 SP São Paulo Metropolitana de São Paulo 1 SP São Paulo Metropolitana de São Paulo 2 RJ Campos dos Goytacazes Norte Fluminense 3 RJ Rio de Janeiro Metropolitana do Rio de Janeiro 4 PR Curitiba Metropolitana de Curitiba QuantFuncionarios Natureza Jurídica Exportador Importador cluster 0 820 10 Não Não 00 1 570 10 Não Não 00 2 510 10 Não Não 00 3 190 10 Não Não 00 4 930 10 Não Não 00 5 rows x 25 columns Adicionar coluna log do faturamento import numpy as np dfcleanlogFatPres nplog1pdfcleanFatPres log1 x evita log0 Verificar nova feature dfcleanFatPres logFatPreshead ipythoninput1836515223294 SettingWithCopyWarning A value is trying to be set on a copy of a slice from a DataFrame Try using locrowindexercolindexer value instead See the caveats in the documentation httpspandaspydataorgpandasdocsstableuserguideindexinghtmlreturningaviewversusacopy dfcleanlogFatPres nplog1pdfcleanFatPres log1 x evita log0 summary name dfcleanFatPres logFatPresn rows 5 fields column FatPres properties dtype number std 744129731 min 56700000 max 1500000000 numuniquevalues 3 samples 236000000 150000000 5670000 semantictype description column logFatPres properties dtype number std 14913801035777738 min 17853284786334665 max 2112873094572124 numuniquevalues 3 samples 19279342367227173 2112873094572124 17853284786334665 semantictype description typedataframe features logFatPres QuantFuncionarios Remover nulos deve estar ok Xscaled scalerfittransformdfcleanfeatures Elbow Method com logFatPres inertia K range1 10 for k in K kmeans KMeansnclustersk randomstate42 kmeansfitXscaled inertiaappendkmeansinertia pltplotK inertia bx pltxlabelNúmero de Clusters pltylabelInertia plttitleMétodo do Cotovelo logFatPres pltshow Silhouette Score for k in range2 10 kmeans KMeansnclustersk randomstate42 labels kmeansfitpredictXscaled score silhouettescoreXscaled labels printfSilhouette Score para kk score4f Método do Cotovelo logFatPres Silhouette Score para k2 04400 Silhouette Score para k3 04714 Silhouette Score para k4 04070 Silhouette Score para k5 04442 Silhouette Score para k6 04253 Silhouette Score para k7 04320 Silhouette Score para k8 04527 Silhouette Score para k9 04677 Novo clustering usando logFatPres kmeans KMeansnclusters5 randomstate42 dfcleanCluster kmeansfitpredictXscaled ipythoninput2133513388583 SettingWithCopyWarning A value is trying to be set on a copy of a slice from a DataFrame Try using locrowindexercolindexer value instead See the caveats in the documentation httpspandaspydataorgpandasdocsstableuserguideindexinghtmlreturningaviewversusacopy dfcleanCluster kmeansfitpredictXscaled snsscatterplot xdfcleanlogFatPres ydfcleanQuantFuncionarios huedfcleanCluster paletteSet1 plttitleClusters logFatPres pltshow Ver correlação entre variáveis numéricas corr dfcleanFatPres QuantFuncionarioscorr printcorr snsheatmapcorr annotTrue cmapcoolwarm plttitleMatriz de Correlação pltshow FatPres QuantFuncionarios FatPres 1000000 0043068 QuantFuncionarios 0043068 1000000 Matriz de Correlação Supondo que LTV seja proporcional ao faturamento simplificação dfcleanLTV dfcleanFatPres 12 exemplo supõe que LTV 120 do faturamento Simular um CAC aleatório dentro de uma faixa plausível nprandomseed42 dfcleanCAC nprandomrandint1000 5000 sizelendfclean Ver exemplo printdfcleanFatPres LTV CAChead FatPres LTV CAC 0 236000000 2832000e08 4174 1 150000000 1800000e09 4507 2 56700000 6804000e07 1860 3 150000000 1800000e09 2294 4 150000000 1800000e09 2130 ipythoninput2424280727462 SettingWithCopyWarning A value is trying to be set on a copy of a slice from a DataFrame Try using locrowindexercolindexer value instead See the caveats in the documentation httpspandaspydataorgpandasdocsstableuserguideindexinghtmlreturningaviewversusacopy dfcleanLTV dfcleanFatPres 12 exemplo supõe que LTV 120 do faturamento ipythoninput2424280727466 SettingWithCopyWarning A value is trying to be set on a copy of a slice from a DataFrame Try using locrowindexercolindexer value instead See the caveats in the documentation httpspandaspydataorgpandasdocsstableuserguideindexinghtmlreturningaviewversusacopy dfcleanCAC nprandomrandint1000 5000 sizelendfclean Agrupar por cluster clustersummary dfcleangroupbyClusteragg FatPres mean LTV mean CAC mean QuantFuncionarios mean resetindex printclustersummary Cluster FatPres LTV CAC QuantFuncionarios 0 0 6302044e09 7562453e09 3078437037 232955556 1 1 3461042e07 4153250e07 3050599424 83288184 2 2 3383904e07 4060685e07 2882470199 283827815 3 3 1562812e08 1875374e08 2813560000 1082160000 4 4 1962031e08 2354437e08 3059902235 203025140 snsscatterplot dataclustersummary xCAC yLTV hueCluster paletteSet1 s100 plttitleCAC vs LTV por Cluster pltshow CAC vs LTV por Cluster Exemplo criar coluna de pontuação de desempenho simulada nprandomseed42 dfcleanDesempenhoCliente nprandomrandint1 10 sizelendfclean printdfcleanFatPres QuantFuncionarios DesempenhoClientehead FatPres QuantFuncionarios DesempenhoCliente 0 236000000 2760 7 1 1500000000 2710 4 2 56700000 7670 8 3 1500000000 2630 5 4 1500000000 2210 7 ipythoninput2716159578383 SettingWithCopyWarning A value is trying to be set on a copy of a slice from a DataFrame Try using locrowindexercolindexer value instead See the caveats in the documentation httpspandaspydataorgpandasdocsstableuserguideindexinghtmlreturningaviewversusacopy dfcleanDesempenhoCliente nprandomrandint1 10 sizelendfclean UNIVERSIDADE FEDERAL DO PARANÁ METODOLOGIA DE SEGMENTAÇÃO DE CLIENTES B2B ORIENTADA A LUCRATIVIDADE E OS EFEITOS NO LIFETIME VALUE LTV CURITIBA 2025 METODOLOGIA DE SEGMENTAÇÃO DE CLIENTES B2B ORIENTADA A LUCRATIVIDADE E OS EFEITOS DO LIFETIME VALUE LVT Dissertação de Mestrado apresentada ao Programa de PósGraduação em Gestão de Organizações Liderança e Decisão PPGOLD Universidade Federal do Paraná como requisito parcial à obtenção do título de Mestre Orientador Cassius Tadeu Scarpin CURITIBA 2025 Ficha Catalográfica METODOLOGIA DE SEGMENTAÇÃO DE CLIENTES B2B ORIENTADA A LUCRATIVIDADE E OS EFEITOS DO LIFETIME VALUE LVT Dissertação de Mestrado apresentada ao Programa de PósGraduação em Gestão de Organizações Liderança e Decisão PPGOLD Universidade Federal do Paraná como requisito parcial à obtenção do título de Mestre Aprovado em de de 2025 Prof Cassius Tadeu Scarpin Orientador Professor do Programa de PósGraduação da Universidade Federal do Paraná Prof Universidade Prof Universidade 2025 Aos pilares da minha vida minhas queridas filhas e esposo Manoella Martinna e Romério cujo amor e alegria diários são minha fonte de inspiração e força ao meu orientador professor Cassius pelo encorajamento nos momentos difíceis e aos amigos acolhedores que agiram em cada momento de dúvida e celebração Cada um de vocês foi peça chave nessa conquista pela importância do amor do apoio e da amizade Dedico esta dissertação a vocês com toda a minha gratidão AGRADECIMENTOS Em geral aquele que ocupa primeiro o campo de batalha e aguarda seu inimigo está à vontade quem chega depois à cena e se apressa a lutar está cansado Sun Tzu Mintzberg et al 2010 RESUMO As organizações atuando em mercados cada vez mais limitados ou saturados enfrentam constantemente o desafio de fidelizar seus clientes e têm um processo de venda complexo para a progressão do negócio seja na expansão das frentes já existentes ou na criação de novas Essas organizações buscam impedir que seus clientes existentes se tornem inativos enquanto orientam na priorização de novas empresas a serem prospectadas alocando recursos em seus orçamentos para sustentar o portfólio e atender a requisitos estratégicos Esta pesquisa visa realizar um estudo analítico sobre a importância da metodologia de segmentação de clientes orientada à lucratividade e seus efeitos no Lifetime Value LTV Tratase da aplicação da descoberta de conhecimento em bancos de dados KDD Knowledge Discovery in Databases Como limitações o estudo contemplará o cenário de empresas do segmento financeiro nacional dependentes do fator de inadimplência e atuando no modelo B2B Business to Business utilizando informações públicas relacionadas ao cadastro de pessoas jurídica Por meio dos resultados obtidos verificase que a metodologia segmentada de clientes orientada ao LTV contribui para as inferências sobre investimentos estruturais na formação das metas de conversão dos negócios no tempo de vida dos clientes e na definição de projetos comerciais como expansão ou abertura de novas frentes de campanhas de marketing Isso auxilia na compreensão dos limites das expectativas sobre o grau de assertividade das projeções O método portanto abre proposições relacionadas à melhoria nas variáveis CAC Customer Acquisition Cost e Churn que compõem a formulação matemática do LTV Diante disso este trabalho propõe uma metodologia de segmentação de clientes baseada em variáveis de lucratividade com o uso de algoritmos de aprendizado de máquina visando aumentar a assertividade da priorização comercial e apoiar a tomada de decisão estratégica com base em dados Para que se obtenha um maior resultado em retenção de clientes alocação eficiente de recursos e previsão do comportamento futuro dos leads e clientes atuais a proposta busca integrar técnicas de clusterização análise fatorial e modelos preditivos alinhadas ao processo de KDD possibilitando inferências mais precisas e personalizadas sobre o valor de cada cliente ao longo do tempo Palavraschave Estratégia Comercial Inteligência de Mercado Lucratividade eou Indicadores de Lucratividade Filtros de Colaborativos Cluster e Negócios ABSTRACT Organizations operating in increasingly constrained or saturated markets constantly face the challenge of retaining their customers and managing a complex sales process necessary for business progression whether by expanding existing fronts or creating new ones These organizations strive to prevent current customers from becoming inactive while prioritizing new prospects allocating budget resources to sustain the portfolio and meet strategic requirements This research aims to conduct an analytical study on the importance of profitabilityoriented customer segmentation methodology and its effects on Lifetime Value LTV It involves the application of Knowledge Discovery in Databases KDD As a limitation the study will focus on companies in the national financial sector that are dependent on default rates and operate under the B2B Business to Business model using publicly available data related to corporate registration The results show that a segmented customer approach oriented toward LTV contributes to inferences about structural investments setting business conversion goals determining customer lifetime and defining commercial projects such as expansion or the launch of new marketing campaigns This helps to better understand the limitations of expectations regarding the accuracy of projections Therefore the method introduces propositions aimed at improving variables such as CAC Customer Acquisition Cost and Churn which are part of the mathematical formulation of LTV In this context the study proposes a customer segmentation methodology based on profitability variables using machine learning algorithms to increase the accuracy of commercial prioritization and support data driven strategic decisionmaking To achieve better results in customer retention efficient resource allocation and forecasting future behavior of leads and current clients the proposed approach integrates clustering techniques factor analysis and predictive models aligned with the KDD process enabling more precise and personalized insights into each customers lifetime value Keywords Commercial Strategy Market Intelligence Profitability andor Profitability Indicators Collaborative Filtering Clustering Business LISTA DE SIGLAS E TERMOS EM INGLÊS SIGLA Descrição Explicação ACO Ant Colony Optimization é um algoritmo de otimização baseado na forma como as formigas encontram os caminhos mais curtos entre seu ninho e uma fonte de alimento AG Algoritmos Genéricos são métodos de otimização inspirados nos princípios da evolução natural e genética Eles são usados para encontrar soluções aproximadas para problemas de otimização complexos que podem ser difíceis de resolver por métodos convencionais ANOVA Analysis of Variance é uma técnica estatística utilizada para comparar as médias de três ou mais segmentos determinando diferenças estatisticamente significativas entre essas médias AntMiner é um algoritmo de mineração de dados inspirado no comportamento das colônias de formigas especificamente projetado para a tarefa de descoberta de regras de classificação em grandes conjuntos de dados Arrays são estruturas que guardam uma coleção de elementos de dados geralmente do mesmo tipo em uma sequência de memória Attention Models são mecanismos utilizados em redes neurais que permitem que a rede preste atenção a partes específicas de uma entrada durante a previsão ou a execução de uma tarefa B2B Businessto Business referese a transações comerciais realizadas entre empresas B2C Businessto consumer referese a um modelo de negócios no qual as empresas vendem produtos ou serviços diretamente aos consumidores finais Backbone é um termo usado em redes de computadores para se referir à principal infraestrutura que interliga diferentes redes locais e segmentos de rede proporcionando conectividade e transporte de dados de alta velocidade entre essas redes Big Data referese a empresas do segmento de tecnologia que agrupam e correlacionam dados disponíveis por instituições públicas ou privadas para uso empresarial Bin é uma categoria ou intervalo específico dentro do qual valores contínuos são agrupados como parte do processo de binning Binning é uma técnica de préprocessamento de dados que agrupa valores contínuos em um número menor de categorias ou bins baseandose em critérios como largura de intervalo ou frequência de observações para suavizar variações nos dados e facilitar análises posteriores Boxplot também conhecido como diagrama de caixa ou gráfico de caixa e bigodes é uma representação gráfica que resume a distribuição de um conjunto de dados numéricos através de cinco números principais o valor mínimo o primeiro quartil Q1 a mediana Q2 o terceiro quartil Q3 e o valor máximo CAC Customer Acquisition Cost referese ao custo total incorrido por uma empresa para adquirir um novo cliente CDAF CrossDomain Adaptive Framework é um modelo ou estrutura adaptativa que facilita o aprendizado e a transferência de conhecimento entre diferentes domínios CEO Chief Executive Officer o cargo de maior autoridade dentro de uma empresa ou organização Churn ou taxa de cancelamento referese à proporção de clientes ou empresas que deixam de usar os serviços ou produtos da empresa Cliente indivíduo ou organização que já realizou uma compra ou utiliza os serviços da empresa e por isso já contribuem diretamente para o lucro da empresa Cluster referese a um grupo de objetos ou pontos de dados que são semelhantes entre si e são diferentes dos objetos em outros grupos Clusterização ou clustering é um método de análise de dados utilizado para agrupar um conjunto de objetos de tal forma que objetos semelhantes sejam colocados no mesmo grupo ou cluster CRM Customer é a gestão empresarial integrada para Relationship Management analisar interações com clientes e dados ao longo do ciclo de vida dele CSV CommaSeparated Values é um modelo de arquivo utilizado para guardar dados em formato de texto simples DataFrames é uma estrutura de dados bidimensional similar a uma tabela utilizada para armazenar dados em formato de linhas e colunas É uma das principais estruturas de dados usadas em bibliotecas de análise de dados como Pandas em Python Data Mining ou mineração de dados o processo de descobrir padrões tendências e informações úteis em grandes conjuntos de dados utilizando técnicas estatísticas matemáticas de inteligência artificial e de aprendizado de máquina DBSCAN DensityBased Spatial Clustering of Applications with Noise é um algoritmo de clusterização popular usado na mineração de dados e aprendizado de máquina Ao contrário de métodos de clusterização baseados em centroides como kmeans o DBSCAN é particularmente eficaz para identificar clusters de formas arbitrárias e para lidar com outliers Decision Tree é um algoritmo de aprendizado supervisionado amplamente utilizado tanto para problemas de classificação quanto de regressão Ela representa um modelo preditivo que mapeia observações sobre um item para conclusões sobre o valor alvo do item DNN Deep Neural Network ou Rede Neural Profunda é uma rede neural artificial que possui múltiplas camadas desde a camada de entrada e a camada de saída Elbow ou método do cotovelo é uma técnica heurística utilizada para determinar o número ótimo de clusters ou agrupamentos em um algoritmo de clustering como o Kmeans encontrando um ponto de inflexão o cotovelo no gráfico Feature Based referese a uma abordagem no campo do aprendizado de máquina e mineração de dados onde o foco está nas características dos dados F2P Freetoplay referese a um modelo de negócios usado principalmente na indústria de jogos eletrônicos onde os jogadores podem acessar o jogo gratuitamente GINI coeficiente de também conhecido simplesmente como Gini é uma medida de dispersão ou desigualdade frequentemente usada em economia para quantificar a desigualdade de renda ou riqueza dentro de uma população Heatmap mapa de calor é uma representação gráfica de dados onde valores individuais contidos em uma matriz são representados por cores Heurística estratégia metodológica que seleciona e utiliza variáveis com base na experiência intuição ou práticas comprovadas Higienização Processo que envolve a remoção de duplicatas correção de erros e atualização dos dados para assegurar a precisão e a utilidade das informações evitando erros e inconsistências Insight compreensão profunda e estratégica orientando decisões de alto impacto que direcionam a empresa para o crescimento e sustentabilidade a longo prazo Interquartil é uma medida estatística da dispersão ou variabilidade de um conjunto de dados É a diferença entre o 3º quartil Q3 e o 1º quartil Q1 de um total de informações representando a faixa dos 50 centrais das informações IQR Interquartil range também conhecido como amplitude interquartil é uma medida de dispersão estatística que descreve a extensão dos valores centrais de um conjunto de dados Especificamente o IQR é a diferença entre o terceiro quartil Q3 e o primeiro quartil Q1 e representa a faixa onde se encontra os 50 centrais dos dados KDD Knowledge Discovery in Databases processo de identificar padrões atuais e novos potencialmente úteis em um grande conjunto de dados Kmeans é um algoritmo de aprendizado de máquina não supervisionado usado para resolver problemas de clustering ou agrupamentos de objetos Lead é um potencial cliente indivíduo ou empresa que demonstra interesse nos produtos ou serviços da empresa mas ainda não realizou uma compra e portanto representam potenciais fontes de lucro no futuro Lifespan Customer Lifecycle ou ciclo de vida do cliente referese ao período total durante o qual um cliente permanece ativo e gera receita para uma empresa Logit multinomial é um modelo estatístico usado para predição e classificação em situações na qual a variável dependente é categorizada com mais de duas categorias LTR Lifetime Revenue é uma métrica usada para quantificar a receita total que um cliente gera durante todo o período em que mantém um relacionamento com uma empresa LTV Lifetime Value é um conceito de marketing usado para estimar o valor total que uma empresa pode esperar receber de um cliente ao longo de todo o seu relacionamento com essa empresa Marketing conjunto de práticas e processos utilizados por organizações para promover vender produtos ou serviços Matplotlib é uma biblioteca de visualização de dados em Python que permite criar gráficos estáticos e interativos Missingno é uma biblioteca em Python projetada para visualizar e diagnosticar valores ausentes em conjuntos de dados NumPy Numerical Python é uma biblioteca de código aberto para a linguagem de programação Python que fornece para suporte para arrays e matrizes multidimensionais juntamente com uma coleção de funções matemáticas de alto nível para operar esses arrays Outlier é um ponto de dados que difere significativamente dos outros pontos de um conjunto de dados geralmente a maior Pandas é uma biblioteca para análise e manipulação de dados em Python Pipeline é um termo amplamente utilizado em tecnologia e ciência de dados que se refere a uma série de etapas sequenciais pelas quais os dados ou tarefas passam desde o início até a conclusão PnP PlugandPlay é um termo usado para descrever dispositivos de hardware ou software que são projetados para funcionar com um mínimo de configuração e intervenção do usuário Prospects clientes ou empresas que tem potencial para se tornarem clientes da empresa no futuro Python é uma linguagem de programação de alto nível amplamente utilizada que oferece uma ampla biblioteca padrão facilitando a extensão de sua funcionalidade para praticamente qualquer tarefa Recall também conhecido como sensibilidade ou taxa de verdadeiros positivos é uma métrica de desempenho utilizada na avaliação de modelos de classificação Ele mede a capacidade do modelo de identificar corretamente todas as ocorrências positivas verdadeiros positivos dentro do conjunto de dados RF Randon Forest é um algoritmo de aprendizado em conjunto usado tanto para classificação quanto para regressão RNA Redes Neurais Artificiais são algoritmos de aprendizado de máquina com funcionamento similar ao cérebro humano São compostas por unidades interligadas chamadas neurônios artificiais organizadas em camadas As RNAs são usadas para uma variedade de tarefas incluindo classificação regressão e reconhecimento de padrões RNN Recurrent Neural Network ou rede neural recorrente é um tipo de rede neural artificial projetada para reconhecer padrões em sequências de dados como séries temporais texto ou áudio Scikitlearn é uma biblioteca de código aberto para aprendizado de máquina em Python Ela oferece uma vasta gama de ferramentas eficientes e fáceis de usar para mineração de dados e análise de dados Seaborn é uma biblioteca de visualização de dados em Python com base no Matplotlib Ela fornece interface de alto nível para desenho de gráficos estatísticos informativos Seq2Seq Sequenceto Sequence Learning é uma abordagem de aprendizado profundo que mapea uma sequência de entrada para uma sequência de saída frequentemente utilizada em tarefas onde a saída não tem a mesma duração que a entrada Silhouette é uma técnica de avaliação de clusterização que mede a qualidade de uma segmentação de dados Ela quantifica o quão bem cada ponto de dados foi agrupado comparando a coesão dentro do cluster e a separação entre clusters SQL Structured Query Language é uma linguagem de programação útil para estudos das informações em bancos de dados relacionais SSE Sum of Squared Errors Soma dos Erros Quadráticos Subplot é um termo utilizado em visualização de dados para se referir a múltiplos gráficos ou figuras exibidas em uma única tela ou página organizados em uma grade Testes T são testes estatísticos utilizados para comparar as médias de dois grupos e determinar se as diferenças observadas entre as médias são estatisticamente significativas TIC Tecnologia da Informação e Comunicação referemse ao conjunto de recursos tecnológicos e de comunicação utilizados para a criação armazenamento processamento transmissão e disseminação de informações ZILN ZeroInflated Lognormal é um modelo estatístico utilizado para lidar com dados que possuem uma alta proporção de zeros juntamente com valores contínuos que seguem uma distribuição lognormal LISTA DE FIGURAS Figura 1 Uma visão geral das etapas que compõem o processo KDD Figura 2 Boxplot 46 Figura 3 Exemplificação Gráfica Elbow 64 Figura 04 Gráfico da Pontuação de Silhueta em função do número de clusters Figura 5 Visualização dos clusters gerados pelo KMeans com redução PCA Figura 6 Scree Plot Distribuição dos Autovalores por Componente Principal Figura 7 Scree Plot dos Autovalores por Componente Principal Figura 8 Comparação entre abordagens de classificação interpretabilidade desempenho preditivo e complexidade computacional Figura 9 Exemplo esquemático de uma árvore de decisão simulando a classificação de clientes com base em perfil e comportamento Figura 10 Estrutura de Funcionamento de um Algoritmo Genético Figura 11 Proposta de segmentação de clientes baseado no valor ao longo da sua vida e na sua lealdade à marca Figura 12 Matriz de correlação entre Faturamento e Quantidade de Funcionários Figura 13 Gráfico do método do cotovelo para definição do número de clusters dados brutos Figura 14 Gráfico do método do cotovelo com transformação logarítmica do Faturamento Figura 15 Distribuição dos clusters considerando Faturamento original e Quantidade de Funcionários Figura 16 Distribuição dos clusters considerando Faturamento transformado em log e Quantidade de Funcionários Figura 17 Relação entre CAC e LTV médios por cluster LISTA DE FIGURAS Tabela 1 Resumo dos clusters com métricas médias de negócio SUMÁRIO 1 INTRODUÇÃO1 11 DESCRIÇÃO DO PROBLEMA2 12 OBJETIVOS3 121 OBJETIVO GERAL3 122OBJETIVOS ESPECÍFICOS4 13 JUSTIFICATIVA DO TRABALHO4 14 LIMITAÇÕES DO TRABALHO5 15 ESTRUTURA DO TRABALHO7 2REVISÃO DA LITERATURA9 21 PROCESSO DE KNOWLEDGE DISCOVERY IN DATABASE KDD9 211 TRATAMENTO DE DADOS11 2111 ELIMINANDO RUÍDOS E INCONSISTÊNCIAS12 2112 TRATANDO VALORES AUSENTES14 2113 NORMALIZAÇÃO DOS DADOS16 2114 OUTLIERS BOXPLOT17 21141 ESTRUTURA E COMPONENTES DE UM BOXPLOT19 2115 USO DO PYTHON21 21151 PANDAS22 21152 NUMPY23 21153SCIKITLEARN24 21154 MATPLOTLIB26 21155 SEABORN27 21156 MISSINGNO28 212 TRANSFORMAÇÃO DE DADOS30 2121 MÉTODO DE CLUSTERIZAÇÃO30 21211 ELBOW32 21212 SILHOUETTE33 2122 KMEANS35 2123 ANÁLISE FATORIAL36 2124 ANALISE DE COMPONENTES PRINCIPAIS PCA38 213 DATA MINING PARA CLASSIFICAÇÃO40 2131 ALGORITMOS DE CLASSIFICAÇÃO40 2132 DECISION TREE ARVORES DE DECISÃO PARA REGRAS DE CLASSIFICAÇÃO42 2133 RF RANDOM FOREST43 2134 RNA REDES NEURAIS ARTIFICIAIS45 2135 AG ALGORITMOS GENÉTICOS46 22 SEGMENTAÇÃO DE CLIENTES48 221 PUREZA E UNIFORMIDADE DOS SEGMENTOS49 222 DIFERENCIAÇÃO ENTRE SEGMENTO51 223 MATRIZ DE CONFUSÃO52 224 TESTES E HIPÓTESES54 225 ANÁLISE DE CORRELAÇÃO ENTRE SEGMENTOS E VARIÁVEIS DE NEGÓCIOS55 226 INTERPRETAÇÃO DOS RESULTADOS E INDICADORES56 227 CAC e LTV57 23 SEGMENTAÇÃO DE CLIENTES B2B63 231 CRITÉRIOS RELEVANTES PARA SEGMENTAÇÃO B2B65 2311 CRITÉRIOS FINANCEIROS65 2312CRITÉRIOS COMPORTAMENTAIS66 2313 CRITÉRIOS ESTRATÉGICOS67 232 TÉCNICAS QUANTITATIVAS PARA SEGMENTAÇÃO B2B68 233 DESAFIOS ATUAIS E PERSPECTIVAS FUTURAS70 3 TRABALHOS CORRELATOS71 4 METODOLOGIA78 41 TIPO DE PESQUISA78 42 PROCEDIMENTOS METODOLÓGICOS79 43 FERRAMENTAS E SOFTWARES81 44 LIMITAÇÕES METODOLÓGICAS81 441 PRÉ PROCESSAMENTO82 442 ANÁLISE ESTATÍSTICA84 443 MINERAÇÃO DE DADOS86 444 SIMULAÇÃO DE MÉTRICAS DE NEGÓCIO93 RESULTADOS96 DISCUSSÃO98 CONCLUSÃO99 REFERÊNCIAS BIBLIOGRÁFICAS101 Obs Em andamento o trabalho está ganhando forma obrigado 1 1 INTRODUÇÃO No atual cenário corporativo empresas inseridas em mercados saturados enfrentam desafios significativos para manter sua base de clientes ativa e simultaneamente expandir suas operações comerciais em um ambiente altamente competitivo Com a intensificação da concorrência e a crescente exigência dos consumidores tornase cada vez mais difícil preservar o engajamento e a lealdade do públicoalvo apenas com abordagens tradicionais Nesse contexto destacase a necessidade de estratégias bem estruturadas que sustentem o relacionamento com os clientes já conquistados evitando sua inatividade e possível evasão Para tanto muitas organizações alocam recursos significativos em seus orçamentos não apenas para viabilizar campanhas de fidelização mas também para garantir o cumprimento de metas comerciais e objetivos estratégicos Tais metas por sua vez costumam ser fundamentadas em projeções de longo prazo frequentemente amparadas em inferências heurísticas e planejamentos orientados por experiências anteriores e tendências de mercado É nesse ambiente desafiador que emergem metodologias e técnicas orientadas por dados com o propósito de auxiliar gestores na identificação das reais necessidades de seus clientes e prospects O termo prospects amplamente utilizado no meio empresarial referese a indivíduos ou empresas que ainda não realizaram uma compra mas que apresentam perfil compatível com os critérios do públicoalvo da organização configurandose como potenciais clientes No presente trabalho o termo será mantido em sua forma original em inglês respeitando seu uso consagrado no contexto comercial e de marketing Com o auxílio dessas ferramentas os gestores podem descobrir padrões comportamentais e desenhar ofertas personalizadas que atendam de maneira simultânea às expectativas dos clientes e às metas de rentabilidade das empresas Entre as ferramentas que vêm se destacando nas estratégias comerciais contemporâneas merece destaque o LTV Lifetime Value ou valor do tempo de vida do cliente Tratase de uma métrica essencial no monitoramento da rentabilidade de cada cliente ao longo de seu relacionamento com a empresa Segundo Olnén 2022 o LTV representa o montante total que um cliente pode gerar em receita sendo especialmente útil para mensurar o sucesso das estratégias de retenção e para orientar investimentos em ações comerciais específicas Quando bem utilizado o LTV permite que empresas identifiquem os clientes com maior potencial de retorno otimizando os esforços de fidelização e personalização de serviços Complementando essa visão Wu et al 2023 destacam que a aplicação do LTV tem impactos diretos na ampliação da margem de lucro pois orienta a criação de ofertas mais assertivas ações proativas de relacionamento e intervenções estratégicas voltadas para retenção Além disso permite um gerenciamento mais inteligente de clientes com baixa geração de receita promovendo o redirecionamento de recursos para segmentos mais rentáveis e viabilizando o planejamento de futuras oportunidades comerciais a partir do valor acumulado de cada perfil de cliente 2 Dessa forma esta pesquisa se propõe a realizar um estudo baseado em dados públicos de mercado oriundos de bases amplas e abertas comumente associadas ao conceito de Big Data A proposta metodológica foi concebida pela autora com base em variáveis escolhidas de forma tanto heurística quanto estratégica levando em consideração as particularidades do produto ou serviço de interesse geralmente estruturado sob a forma de campanhas de marketing direcionadas ou perfis ideais de clientes O objetivo central é demonstrar a relevância da segmentação inteligente de leads priorizando estrategicamente as ações de prospecção e o gerenciamento cotidiano da área comercial com foco na maximização da rentabilidade e na eficiência operacional Nesse cenário os sistemas de recomendação ganham protagonismo como ferramentas essenciais para impulsionar as vendas e refinar as estratégias de marketing Tais sistemas atuam tanto na atração de novos clientes quanto na fidelização dos já existentes proporcionando experiências mais personalizadas e consequentemente mais eficazes A filtragem colaborativa uma das técnicas mais consolidadas nesse campo vem sendo constantemente aprimorada por meio da integração com abordagens analíticas diversas ampliando sua capacidade de gerar recomendações relevantes e contextualizadas Entre essas abordagens destacase a proposta deste estudo que consiste na integração entre o processo de Descoberta de Conhecimento em Bancos de Dados Knowledge Discovery in Databases KDD e os sistemas de recomendação colaborativos O KDD ao explorar grandes volumes de dados e extrair padrões relevantes permite a construção de insights mais profundos e personalizados o que eleva significativamente a qualidade das decisões comerciais baseadas em dados Essa sinergia entre sistemas inteligentes e mineração de dados representa um avanço importante na busca por estratégias comerciais mais embasadas e preditivas Conforme Fayyad et al 1996 o KDD assume papel estratégico ao transformar dados brutos em conhecimento aplicável permitindo que decisões importantes sejam tomadas com base em informações robustas estruturadas e alinhadas aos objetivos organizacionais Os autores reforçam que a utilização do KDD em sistemas de apoio à decisão comercial não apenas aumenta a eficiência analítica mas também fortalece a capacidade das empresas de responder de forma ágil e fundamentada às dinâmicas do mercado 11 DESCRIÇÃO DO PROBLEMA O processo de tomada de decisão do planejamento comercial baseiase em duas etapas fundamentais e interdependentes uma etapa tática e outra estratégica Na etapa tática predomina uma abordagem analítica e racional baseada em dados concretos indicadores de desempenho e cálculos numéricos que sustentam decisões objetivas Essa fase é orientada por métricas quantificáveis como faturamento margem de contribuição taxa de conversão entre outros No entanto embora a racionalidade seja o eixo principal não se descarta a presença de inferências pontuais derivadas de situações excepcionais como alterações políticas internas sazonalidades específicas ou ocorrências de outliers isto é registros que 3 fogem ao padrão estatístico mas que podem sinalizar oportunidades ou ameaças relevantes ao planejamento Tais exceções embora menos frequentes são levadas em consideração por sua capacidade de alterar os rumos táticos mesmo quando não previstas pelos modelos matemáticos tradicionais Na etapa estratégica por sua vez o foco se desloca para uma visão mais holística e de longo prazo Aqui o papel dos gestores de alto escalão se torna mais proeminente pois são eles que baseandose em sua vivência conhecimento acumulado do setor e leitura do ambiente externo contribuem com interpretações e julgamentos subjetivos Esses insights derivados de experiências anteriores ou da sensibilidade diante de sinais do mercado são fundamentais para orientar decisões que extrapolam a objetividade dos números permitindo um direcionamento mais robusto das metas comerciais e dos investimentos futuros Essa combinação entre análise empírica e intuição estratégica busca alinhar a empresa às transformações do mercado promovendo um crescimento sustentável e planejado Desta forma a presente pesquisa está relacionada principalmente à etapa tática Visa gerar uma metodologia que define quais os leads e clientes do universo mapeado previamente necessitam de priorização de ações de relacionamento ou prospecção Em decorrência da metodologia proposta a ser apresentada no decorrer do trabalho as contribuições da aplicação de um método de segmentação de clientes com adoção de variáveis de lucratividade para alavancagem da estratégia comercial tornase uma possibilidade real e prática para aumentar a produtividade da área comercial Previsões fundamentadas em indicadores de lucratividade como o LTV não apenas ajudam o planejamento financeiro da empresa mas também contribuem para melhores decisões de marketing e orientam o gerenciamento de relacionamento com o cliente CRM WANG et al 2019 12 OBJETIVOS 121 OBJETIVO GERAL Desenvolver uma metodologia de segmentação de clientes que permita de forma sistematizada e baseada em dados a identificação de características específicas e recorrentes de cada grupo formado a partir de variáveis comerciais relevantes A proposta visa estruturar a definição de segmentos com base em critérios tanto quantitativos quanto qualitativos considerando aspectos operacionais financeiros e comportamentais dos clientes Além disso objetivase incorporar à metodologia variáveis diretamente relacionadas à lucratividade como o Faturamento e o Custo de Aquisição de Clientes CAC de modo a gerar inferências consistentes e aplicáveis ao indicador Lifetime Value LTV A abordagem busca oferecer suporte técnico e estratégico à operação comercial permitindo decisões mais assertivas sobre prospecção retenção e priorização de contas no ambiente B2B com foco no 3 4 aumento da rentabilidade e na otimização do relacionamento com os clientes ao longo do tempo 122OBJETIVOS ESPECÍFICOS Serão explorados os seguintes objetivos específicos Identificar a partir da literatura especializada os principais critérios utilizados na segmentação de leads e clientes no ambiente B2B considerando tanto abordagens tradicionais quanto modelos contemporâneos de marketing orientado por dados de forma a compreender como diferentes variáveis demográficas comportamentais financeiras e relacionais influenciam a categorização de perfis de empresas e tomadores de decisão Analisar o conceito de Lifetime Value LTV e sua utilização como métrica orientadora em estratégias de segmentação de clientes com ênfase em sua aplicabilidade prática para estimar o potencial de receita futura orientar investimentos comerciais priorizar contas estratégicas e subsidiar decisões sobre retenção upsell e alocação de recursos Investigar modelos teóricos de pontuação de leads com base em variáveis relacionadas à rentabilidade e ao ciclo de vida do cliente buscando compreender como sistemas de classificação podem apoiar a definição de prioridades de prospecção e engajamento em contextos empresariais com orçamentos limitados e metas de alta conversão Revisar os fundamentos do processo de descoberta de conhecimento em bases de dados KDD e suas aplicações na organização e interpretação de dados analisando cada etapa do fluxo desde a seleção préprocessamento e mineração até a avaliação e visualização de padrões com vistas à geração de insights acionáveis e sustentáveis para uso estratégico no ambiente comercial Examinar à luz de estudos existentes a influência de percepções gerenciais e experiências de mercado na tomada de decisão estratégica em contextos comerciais compreendendo de que maneira fatores subjetivos e heurísticos interagem com os dados quantitativos para formar estratégias híbridas que conciliam análise baseada em evidências com a intuição executiva 13 JUSTIFICATIVA DO TRABALHO A presente dissertação justificase pelo interesse em aprofundar a discussão acadêmica sobre metodologias de segmentação de clientes no contexto B2B com base em métricas de lucratividade como o Lifetime Value LTV Em mercados cada vez mais competitivos e orientados por dados a capacidade de identificar os clientes mais valiosos e direcionar esforços de maneira estratégica tornouse um diferencial crítico para empresas que buscam maximizar o retorno sobre seus investimentos 5 comerciais Nesse sentido a segmentação orientada por valor tem sido amplamente destacada em estudos recentes como uma abordagem eficaz para subsidiar decisões tanto estratégicas quanto operacionais especialmente em setores que demandam racionalização de recursos e gestão otimizada de carteiras de clientes WU et al 2023 WANG et al 2019 A análise da literatura especializada evidencia que as práticas de segmentação com apoio de algoritmos e modelos preditivos vêm se consolidando como importantes ferramentas de suporte técnico à tomada de decisão Em particular a integração desses métodos ao processo de descoberta de conhecimento em bases de dados KDD Knowledge Discovery in Databases amplia significativamente a capacidade de transformar grandes volumes de dados brutos em informações relevantes e acionáveis Essa abordagem conforme discutido por Fayyad et al 1996 Han Kamber e Pei 2011 permite a construção de modelos analíticos robustos com potencial para revelar padrões ocultos no comportamento de clientes e apoiar estratégias comerciais baseadas em evidências Além disso a relevância da presente pesquisa também se justifica pela necessidade de compreender em profundidade como métricas como o CAC Customer Acquisition Cost e o churn taxa de evasão de clientes impactam diretamente na modelagem do LTV influenciando a priorização de ações comerciais e a alocação eficiente de recursos Tais indicadores quando utilizados de forma integrada à segmentação de clientes permitem não apenas projetar o valor futuro das contas existentes mas também identificar os perfis que representam maior risco ou menor retorno otimizando a performance da área de vendas e relacionamento Nesse contexto esta dissertação propõe a estruturação teórica de uma metodologia que considere tanto dados objetivos quantitativos típicos da etapa tática do planejamento quanto percepções subjetivas e gerenciais qualitativas típicas da etapa estratégica conforme referenciado por autores como Kanchanapoom e Chongwatpol 2022 A proposta busca assim refletir a realidade híbrida da gestão comercial que combina métricas precisas com a experiência acumulada dos gestores no trato com o mercado Tratase portanto de um estudo de caráter exploratório baseado em fontes secundárias e fundamentado em uma ampla revisão de literatura científica nacional e internacional Ao abordar a segmentação de clientes orientada à rentabilidade no escopo do modelo B2B esperase que esta pesquisa contribua de forma relevante para o avanço do debate metodológico na área de marketing analítico e inteligência comercial fornecendo subsídios para práticas mais eficientes sustentáveis e alinhadas às exigências do mercado contemporâneo 14 LIMITAÇÕES DO TRABALHO Este estudo apresenta algumas limitações que devem ser consideradas tanto no delineamento da proposta metodológica quanto na análise dos resultados obtidos A seguir são detaladas as principais restrições identificadas no desenvolvimento desta pesquisa 5 6 Amostra de dados secundários a metodologia proposta foi aplicada a um conjunto de dados secundários de acesso público o que limita a profundidade da análise em relação a setores específicos ou perfis de clientes com características muito particulares Como a base de dados utilizada não foi customizada para os objetivos específicos deste estudo pode haver lacunas em variáveis relevantes ou distorções provocadas pela falta de atualização ou pela forma de coleta dos dados originais Variabilidade das variáveis utilizadas na segmentação a segmentação foi construída com base em um conjunto restrito de variáveis quantitativas como faturamento número de funcionários e métricas simuladas de lucratividade ex LTV Embora essas variáveis sejam amplamente referenciadas na literatura sua adoção representa apenas uma fração das dimensões que poderiam compor o perfil completo de um cliente Aspectos como comportamento de compra histórico de relacionamento ou perfil de decisão foram considerados fora do escopo deste estudo o que pode impactar a riqueza da segmentação Complexidade dos modelos analisados mesmo sem a execução de testes empíricos avançados a compreensão conceitual de técnicas como clusterização análise de agrupamento e métricas preditivas exige certo grau de familiaridade com fundamentos estatísticos e algoritmos de machine learning Essa complexidade técnica pode dificultar a aplicação prática por profissionais de áreas comerciais ou de marketing que não possuem formação especializada em ciência de dados ou análise quantitativa Influência de fatores externos a proposta metodológica assume um contexto de estabilidade relativa nas condições de mercado No entanto fatores macroeconômicos institucionais ou regulatórios como crises econômicas alterações tributárias ou mudanças tecnológicas abruptas podem interferir significativamente nos padrões históricos de comportamento dos clientes afetando a validade dos modelos de segmentação construídos com base em dados anteriores Subjetividade dos insights gerenciais uma parte relevante da análise estratégica deriva da experiência e da interpretação dos gestores o que introduz uma dimensão subjetiva à metodologia Essa variabilidade na percepção pode gerar diferentes conclusões a partir de um mesmo conjunto de dados dificultando a padronização da abordagem e reduzindo sua reprodutibilidade em contextos distintos Resistência à adoção de novos métodos a integração de técnicas de análise de dados ao processo decisório comercial ainda enfrenta resistência em muitas organizações seja por barreiras culturais ausência de infraestrutura tecnológica ou limitação de competências analíticas das equipes Essa resistência pode comprometer a efetividade da implementação prática da metodologia proposta 7 Validade temporal dos dados por fim destacase que a base de dados utilizada representa uma fotografia estática de um determinado momento no tempo Dado o dinamismo dos mercados e a velocidade com que os perfis de consumo e relacionamento se transformam é possível que os agrupamentos e inferências gerados percam validade em curto ou médio prazo se não forem atualizados periodicamente Essa limitação reforça a necessidade de reavaliações frequentes do modelo para garantir sua aderência à realidade comercial vigente 15 ESTRUTURA DO TRABALHO A organização deste trabalho foi planejada de modo a proporcionar uma leitura fluida clara e didática permitindo ao leitor compreender todas as etapas da pesquisa desde a contextualização do problema até os resultados obtidos e suas possíveis aplicações práticas O conteúdo foi estruturado em capítulos que se complementam e oferecem uma visão completa do processo investigativo e da proposta de segmentação de clientes utilizando técnicas de ciência de dados A seguir descrevese detalhadamente a composição de cada capítulo Capítulo 1 Introdução Este capítulo apresenta o contexto geral da pesquisa situando o leitor em relação ao tema estudado e sua relevância no ambiente corporativo especialmente no setor B2B São descritos o problema de pesquisa os objetivos gerais e específicos do estudo bem como sua justificativa com base na importância da segmentação como estratégia para aprimorar a eficiência comercial das empresas Além disso são mencionadas as limitações encontradas no desenvolvimento da pesquisa e é detalhada a estrutura adotada no corpo do trabalho Capítulo 2 Revisão da Literatura Neste capítulo são discutidos os principais conceitos teóricos que fundamentam o estudo reunindo contribuições de autores relevantes na área de marketing ciência de dados e inteligência de negócios A revisão aborda o processo de KDD Knowledge Discovery in Databases destacando etapas como o tratamento e transformação dos dados além da aplicação de técnicas de mineração para fins de classificação e agrupamento São apresentados também os fundamentos da segmentação de clientes com foco nos desafios específicos do mercado B2B e discutidas as métricas CAC Custo de Aquisição de Clientes e LTV Lifetime Value 7 8 que oferecem base para decisões mais estratégicas nas áreas de vendas e marketing Capítulo 3 Trabalhos Correlatos Esta seção apresenta uma análise comparativa de pesquisas e projetos acadêmicos que abordam temas semelhantes ao proposto neste estudo A identificação de abordagens metodológicas e resultados obtidos por outros autores contribui para validar a relevância do problema estudado além de indicar caminhos já explorados e oportunidades de aprofundamento ainda pouco discutidas na literatura Capítulo 4 Metodologia O capítulo metodológico descreve de forma detalhada os procedimentos adotados para a execução da pesquisa prática São explicadas as etapas de preparação e análise dos dados a escolha do algoritmo KMeans para a clusterização dos clientes e a simulação das métricas de negócio utilizadas para avaliação dos grupos Também são listadas as ferramentas e linguagens de programação utilizadas no processo como Python e bibliotecas como Pandas Scikitlearn e Matplotlib além das justificativas para as decisões tomadas ao longo do desenvolvimento do experimento Capítulo 5 Resultados e Discussão Aqui são apresentados os resultados obtidos com a aplicação do modelo de clusterização com destaque para as características e médias de cada grupo identificado Os dados são discutidos à luz dos objetivos do trabalho evidenciando como a segmentação pode auxiliar na tomada de decisões mais inteligentes no relacionamento com os clientes Também são discutidas as implicações práticas de cada cluster com sugestões de estratégias específicas de atendimento marketing e retenção Conclusão 9 A conclusão retoma os objetivos propostos inicialmente e avalia o grau em que foram atingidos Também são destacados os principais achados do trabalho e suas contribuições para o campo da gestão comercial e da ciência de dados aplicada ao marketing Por fim são apresentadas sugestões de continuidade da pesquisa indicando formas de aprimorar o modelo proposto com o uso de dados mais completos ou técnicas mais avançadas de aprendizado de máquina Referências Esta seção contém a lista completa das obras artigos livros e materiais utilizados ao longo do desenvolvimento da pesquisa devidamente organizados conforme as normas da Associação Brasileira de Normas Técnicas ABNT permitindo que o leitor identifique as fontes consultadas para aprofundamento Anexos Por fim os anexos reúnem os elementos complementares que não foram incluídos no corpo principal do texto por questões de fluidez mas que são importantes para demonstrar a aplicação prática do trabalho como códigosfonte utilizados nas análises tabelas completas gráficos e prints do ambiente de desenvolvimento 2REVISÃO DA LITERATURA 21 PROCESSO DE KNOWLEDGE DISCOVERY IN DATABASE KDD A exploração de conhecimento em bancos de dados KDD Knowledge Discovery in Databases é um processo que se dedica à extração de informações valiosas e conhecimento a partir de grandes conjuntos de dados Esse processo abrange diversas etapas críticas desde a seleção e preparação inicial dos dados até a mineração efetiva dos dados em si e a interpretação dos resultados obtidos Han et al 2011 destacam que o processo de KDD envolve a limpeza integração seleção e transformação dos dados antes da aplicação de técnicas de mineração para extrair padrões significativos A relevância do KDD tem crescido juntamente com o aumento na quantidade de dados produzidos e armazenados o que impulsiona a demanda por métodos eficazes para embasar decisões em dados e gerar insights estratégicos No contexto 9 10 do KDD a precisão dos dados é fundamental Dados imprecisos incompletos ou irrelevantes podem levar a conclusões equivocadas e prejudicar a utilidade dos insights descobertos Assim sendo um componente vital do processo de KDD consiste na preparação preliminar dos dados incluindo atividades como limpeza normalização e transformação HAN et al 2011 Tais técnicas contribuem para assegurar que os dados utilizados na mineração sejam tão precisos e completos quanto possível otimizando dessa forma a qualidade das informações derivadas Segundo Han et al 2011 a qualidade dos dados é crucial para o sucesso da mineração de dados pois a eficácia dos algoritmos de mineração depende diretamente da qualidade dos dados que recebem como entrada Um exemplo prático da aplicação das técnicas de KDD pode ser observado no estudo realizado por Ekstrand et al 2010 que investiga os sistemas colaborativos de recomendação Os autores abordam estratégias de filtragem colaborativa que são fundamentais para compreender as escolhas dos utilizadores e oferecer sugestões personalizadas Este estudo ilustra como o KDD pode ser empregado para aprimorar a exatidão e a pertinência das recomendações em plataformas interativas algo essencial para a experiência do utilizador e para a garantia da qualidade da análise Fayyad et al 1996 dizem que o KDD é um campo interdisciplinar focado na extração de informações úteis de grandes conjuntos de dados Os autores detalham que o processo de KDD pode envolver várias etapas incluindo seleção de dados limpeza enriquecimento e transformação de dados além da aplicação de algoritmos de mineração de dados para encontrar padrões significativos Destacam também que a crescente importância do KDD se deve ao aumento do volume de dados disponíveis e portanto é imprescindível a crescente necessidade de métodos eficazes para análise desses dados A compreensão do processo de KDD não apenas revela a complexidade envolvida na manipulação de grandes volumes de dados mas também sublinha a necessidade de uma abordagem estruturada para extrair conhecimento valioso 11 desses dados Como ilustrado na Figura 01 o processo de KDD é composto por uma série de etapas interconectadas que começam com a seleção de dados e seguem por meio da seleção tratamento de dados e transformação deles Essas etapas preparatórias são cruciais para assegurar a qualidade dos dados antes de aplicar algoritmos de mineração de dados A Figura 01 destaca a natureza iterativa do processo KDD mostrando como cada etapa contribui para refinar os dados até que padrões significativos possam ser descobertos e verificados A visualização oferecida pela figura não só esclarece os componentes individuais do processo mas também demonstra como eles estão interligados reforçando a ideia de que o sucesso na mineração de dados depende da sua meticulosa preparação e análise Este fluxo estruturado é essencial para enfrentar o desafio imposto pelo crescente volume de dados Por meio de uma análise cuidadosa as organizações podem transformar uma grande quantidade de dados brutos em insights relevantes e aplicáveis que são críticos para a tomada de decisões informadas e estratégicas Portanto a figura 01 não apenas serve como um mapa visual das etapas do KDD mas também como uma ferramenta fundamental para entender a interdependência dessas etapas no contexto da descoberta de conhecimento em bases de dados Figura 1 Uma visão geral das etapas que compõem o processo KDD Fonte Fayyad et al 1996 211 TRATAMENTO DE DADOS 11 12 A etapa de tratamento de dados no processo de exploração de conhecimento em bancos de dados KDD desempenha um papel importante garantindo a confiabilidade e usabilidade dos dados para análises subsequentes Durante essa fase é essencial realizar a identificação de ruídos resolver inconsistências e preparar os dados adequadamente para permitir que os algoritmos de mineração funcionem com eficácia Isso inclui tarefas como padronização de formatos preenchimento ou remoção de valores ausentes detecção de outliers e conversão de variáveis categóricas em representações numéricas apropriadas Tais procedimentos não apenas aumentam a acurácia dos modelos mas também reduzem o tempo de processamento e evitam distorções nos resultados Segundo Cheng e Chen 2009 o tratamento e o préprocessamento são elementoschave para o êxito dos algoritmos de agrupamento utilizados em sistemas de CRM pois impactam diretamente na formação de clusters mais coesos e úteis para a tomada de decisão 2111 ELIMINANDO RUÍDOS E INCONSISTÊNCIAS Remover o excesso de informações ruídos e inconsistências representa uma etapa fundamental na preparação dos dados para o processo de Knowledge Discovery in Databases KDD uma vez que dados imprecisos ou com baixa qualidade podem comprometer significativamente os resultados obtidos nas etapas subsequentes de mineração e análise A presença de valores duplicados erros de entrada lacunas ou informações incoerentes tende a distorcer os padrões e correlações descobertos levando a decisões equivocadas e interpretações falhas Além disso quanto maior o volume de dados e mais diversas as fontes envolvidas maior a complexidade dos problemas de qualidade que podem surgir exigindo metodologias mais robustas para sua resolução De acordo com Han Kamber e Pei 2011 o préprocessamento dos dados é composto por diversas técnicas incluindo o preenchimento de valores ausentes a suavização de ruídos a correção de inconsistências a detecção e remoção de outliers além da padronização e transformação de atributos Essas etapas são essenciais para garantir a integridade a completude e a utilidade do conjunto de dados antes de sua exploração analítica A negligência nessa fase pode comprometer a construção de modelos de aprendizado gerar viés nos resultados e dificultar a replicabilidade dos experimentos analíticos afetando diretamente a tomada de decisões Entre os métodos mais comuns de suavização destacamse os filtros de média e mediana que substituem valores individuais por médias ou medianas calculadas a partir de seus vizinhos mais próximos reduzindo assim a variabilidade 13 aleatória Já a suavização por binning agrupa os dados em intervalos bins e ajusta os valores com base em estatísticas internas de cada intervalo promovendo homogeneidade local A suavização por regressão por sua vez ajusta uma função matemática linear ou não linear aos dados permitindo a identificação e atenuação de tendências ou flutuações acentuadas Essas técnicas são particularmente úteis em conjuntos de dados com alta variabilidade como séries temporais financeiras dados de sensores ou registros de comportamento de usuários A detecção de outliers é outra etapa crítica pois esses valores atípicos podem interferir negativamente nos resultados dos modelos estatísticos e algoritmos de aprendizado de máquina Métodos estatísticos convencionais baseados em medidas de tendência central e dispersão como média e desvio padrão são frequentemente utilizados para identificar e remover esses pontos anômalos Contudo técnicas mais avançadas como o algoritmo DBSCAN DensityBased Spatial Clustering of Applications with Noise proposto por Ester et al 1996 têm se mostrado eficazes para detectar outliers em grandes volumes de dados multidimensionais pois consideram a densidade local de pontos ao invés de simples critérios globais A combinação de métodos estatísticos e algoritmos de aprendizado não supervisionado é em muitos casos recomendada para garantir maior precisão na detecção desses casos extremos Além disso inconsistências nos dados muitas vezes resultantes da fusão de diferentes bases de dados erros de digitação ou atualizações mal conduzidas devem ser tratadas por meio de inspeções manuais validações cruzadas e aplicação de regras de integridade baseadas no domínio dos dados Isso inclui a verificação de chaves primárias integridade referencial formatos esperados e padrões semânticos consistentes O uso de ferramentas automatizadas de data cleaning também tem ganhado espaço especialmente em contextos que envolvem grandes volumes de dados e necessidade de escalabilidade Ferramentas como Talend Trifacta e Apache Nifi vêm sendo amplamente adotadas para automatizar processos de limpeza enriquecimento e integração de dados em pipelines modernas de engenharia de dados Complementando esse panorama Do e Batzoglou 2008 em estudos voltados para bioinformática destacam a importância da normalização e padronização como elementos fundamentais para garantir a comparabilidade entre conjuntos de dados heterogêneos Essas técnicas ajustam os dados para uma escala comum prevenindo que atributos com magnitudes diferentes dominem o processo de mineração A normalização é especialmente importante em algoritmos baseados em distância como kmeans redes neurais e máquinas de vetor de suporte nos quais variáveis em escalas distintas podem afetar desproporcionalmente a formação de padrões e decisões de agrupamento No campo dos sistemas de recomendação Ekstrand Riedl e Konstan 2010 demonstram como abordagens sofisticadas de filtragem de dados incluindo técnicas baseadas em conteúdo e colaborativas dependem fortemente da qualidade e coerência dos dados de entrada Uma base mal preparada pode gerar recomendações irrelevantes ou enviesadas prejudicando a experiência do usuário e reduzindo a eficácia dos sistemas inteligentes Nesses cenários a etapa de 13 14 tratamento e préprocessamento influencia diretamente a confiabilidade dos sistemas e sua aceitação por parte dos usuários finais Assim a manipulação criteriosa e sistemática das informações tornase essencial não apenas para garantir a acurácia dos modelos e interpretações derivadas da mineração de dados mas também para assegurar a reprodutibilidade dos resultados e sua aplicabilidade em contextos reais A qualidade dos dados está diretamente relacionada à capacidade da organização de extrair conhecimento confiável relevante e acionável contribuindo de forma decisiva para a orientação estratégica e a geração de vantagem competitiva sustentada O investimento em boas práticas de preparação de dados deve ser encarado como parte fundamental da cultura analítica das empresas impactando diretamente os resultados de curto e longo prazo Em síntese a preparação adequada dos dados não é uma etapa acessória mas sim uma condição sine qua non para o sucesso de qualquer projeto baseado em análise de dados No contexto corporativo essa etapa representa a base sobre a qual serão construídas as estratégias analíticas e preditivas justificando o investimento em processos e ferramentas que garantam a excelência na gestão da informação A negligência nesse estágio pode comprometer toda a cadeia de valor analítico enquanto sua execução cuidadosa abre caminho para decisões mais eficazes processos mais eficientes e inovação orientada por dados 2112 TRATANDO VALORES AUSENTES O correto tratamento de dados ausentes é uma etapa essencial no processo de preparação de dados para o Knowledge Discovery in Databases KDD pois assegura a qualidade consistência e integridade do conjunto de dados Dados faltantes se não tratados adequadamente podem comprometer a validade das análises estatísticas distorcer resultados e consequentemente impactar negativamente a eficácia dos modelos de mineração de dados Assim é fundamental adotar abordagens criteriosas e fundamentadas para a identificação análise e tratamento dessas lacunas garantindo que as inferências obtidas sejam confiáveis e representativas A negligência nesse aspecto compromete não apenas a robustez dos modelos mas também a confiança nas decisões baseadas em dados o que é especialmente crítico em ambientes empresariais e científicos A primeira etapa crítica consiste na identificação da existência e da distribuição dos valores ausentes no banco de dados Isso envolve a quantificação do volume de dados faltantes por variável e a localização exata de onde ocorrem essas ausências Essa análise inicial fornece uma visão geral da extensão do problema e auxilia na definição de estratégias apropriadas de imputação ou eliminação de registros quando necessário Ferramentas como mapas de calor e gráficos de dispersão podem ser utilizadas para visualizar as lacunas de forma clara permitindo um diagnóstico mais assertivo e facilitando a comunicação com stakeholders 15 Posteriormente tornase imprescindível realizar uma análise do padrão de ocorrência dos dados ausentes Essa análise visa determinar se os dados estão ausentes completamente ao acaso Missing Completely at Random MCAR ausentes ao acaso Missing at Random MAR ou ausentes de forma não aleatória Not Missing at Random NMAR A identificação desse padrão é decisiva para a seleção da técnica de tratamento mais eficaz Por exemplo se os dados estão ausentes de forma sistemática isso pode refletir vieses no processo de coleta falhas de instrumentação ou ainda uma relação estrutural com outras variáveis do conjunto de dados Compreender o mecanismo de ausência permite reduzir o risco de interpretações equivocadas além de melhorar a precisão dos modelos preditivos Riedl e Konstan 2011 ao analisarem os impactos dos valores ausentes em sistemas de recomendação ressaltam que a ausência de dados pode afetar diretamente a capacidade de personalização desses sistemas Os autores destacam que dados incompletos reduzem a acurácia das recomendações além de comprometer a robustez e a equidade dos algoritmos especialmente em abordagens colaborativas que dependem fortemente da completude das interações entre usuários e itens Isso evidencia como o tratamento adequado de dados ausentes não é apenas uma questão técnica mas uma necessidade funcional para garantir a performance e confiabilidade de sistemas inteligentes Entre as estratégias mais empregadas para lidar com dados ausentes destacamse Imputação por média mediana ou moda utilizada em situações de baixa complexidade onde os valores ausentes são substituídos por estatísticas simples de tendência central É uma abordagem eficiente em bases com pequenas proporções de ausência e pouca variabilidade Imputação por regressão quando há uma relação identificável entre a variável ausente e outras variáveis do conjunto é possível estimar os valores ausentes com base em modelos de regressão linear ou múltipla mantendo maior coerência estatística entre os atributos Técnicas de aprendizado de máquina como kNearest Neighbors kNN e redes neurais também são aplicadas para imputar valores com base em padrões complexos de similaridade ou aprendizado supervisionado sendo úteis para bases com estrutura multidimensional e interdependência entre variáveis Eliminação de registros ou variáveis adotada quando a quantidade de dados ausentes é suficientemente pequena para não comprometer a integridade do conjunto ou quando a variável não possui relevância significativa para o objetivo do modelo Tratase de uma solução prática mas deve ser aplicada com cautela para evitar perda de informação relevante Modelos múltiplos de imputação como o Multiple Imputation by Chained Equations MICE considerados mais sofisticados permitem a geração de múltiplos conjuntos imputados incorporando a variabilidade e incerteza associadas ao processo Essa abordagem melhora a validade estatística das análises posteriores especialmente em estudos inferenciais 15 16 A escolha da técnica de tratamento mais adequada deve considerar não apenas a proporção de dados faltantes mas também o contexto analítico a estrutura das variáveis e o impacto potencial sobre os resultados Um tratamento inadequado pode introduzir viés mascarar relações reais ou gerar interpretações enganosas Por isso é importante realizar testes comparativos entre métodos de imputação e avaliar os efeitos em métricas de desempenho dos modelos subsequentes Ademais o tratamento de dados ausentes deve ser documentado de forma transparente para garantir a rastreabilidade e reprodutibilidade dos resultados Em ambientes corporativos onde decisões estratégicas são tomadas com base em análises preditivas negligenciar essa etapa pode acarretar prejuízos operacionais e financeiros significativos A adoção de uma política de governança de dados com protocolos claros para tratamento de lacunas tornase um diferencial competitivo e de conformidade Portanto a gestão criteriosa de dados faltantes é uma prática indispensável no ciclo de vida da ciência de dados Quando bem executada ela assegura a fidelidade das análises potencializa a acurácia dos modelos e contribui para a geração de conhecimento de alto valor agregado alinhado às metas organizacionais e à realidade dos negócios Tratase de uma etapa que embora muitas vezes invisível aos olhos do usuário final sustenta toda a credibilidade e aplicabilidade dos resultados analíticos sendo essencial para o sucesso de qualquer projeto orientado por dados 2113 NORMALIZAÇÃO DOS DADOS A normalização dos dados assegura que os dados estejam em um formato apropriado para análise e modelagem Normalizar os dados ajuda a padronizar os valores dos atributos garantindo que eles contribuam de maneira equitativa nas análises e modelos subsequentes Este processo serve para melhorar a performance de algoritmos de mineração de dados reduzindo a influência de características com valores numericamente mais amplos em algoritmos sensíveis à escala dos dados como a distância euclidiana utilizada em métodos de clusterização e classificação Além disso quando os atributos possuem escalas discrepantes como faturamento anual em milhões e número de funcionários em dezenas a normalização tornase indispensável para que ambos os atributos tenham o mesmo peso nas análises computacionais Entre as motivações para a normalização incluemse a eliminação de unidades diferentes o que é crucial quando variáveis são medidas em diferentes escalas por exemplo valores monetários e quantidade física a melhora da convergência de algoritmos de aprendizado de máquina como o gradiente descendente que tendem a convergir mais rapidamente quando os dados estão normalizados e o equilíbrio entre atributos evitando que atributos com valores maiores dominem a análise em detrimento de outros Sem essa padronização modelos estatísticos e preditivos podem apresentar resultados enviesados dificultando a extração de conhecimento útil e a tomada de decisões fundamentadas 17 Cao et al 2023 mencionam a importância da normalização no contexto de modelos de gestão de receita onde a padronização dos dados facilita a aplicação de modelos logísticos multinomiais crucial para prever comportamentos de compra A ausência dessa etapa pode impactar negativamente tanto a precisão das previsões quanto a estabilidade dos parâmetros estatísticos estimados especialmente em bases heterogêneas e com alta dispersão de valores As técnicas comuns de normalização incluem HAN et al 2011 Escala MinMax Ajusta os dados para que fiquem dentro de uma faixa específica geralmente 0 1 É indicada quando a distribuição dos dados não apresenta valores extremos pois estes podem distorcer o reescalonamento Padronização ZScore Ajusta os dados para ter média 0 e desvio padrão 1 tornando mais fácil para algoritmos lidar com uma distribuição normal Essa técnica é amplamente utilizada quando se espera uma distribuição simétrica dos dados Normalização por Máximo Absoluto Redimensiona os dados de modo que os valores absolutos máximos sejam 1 útil para dados dispersos É comum em aplicações de aprendizado profundo ou onde a esparsidade dos dados é um fator relevante Escalonamento Robusto Robust Scaler Ajusta os dados usando a mediana e o intervalo interquartil sendo especialmente eficaz para dados com valores atípicos Por sua resistência a outliers essa técnica é adequada quando se trabalha com dados reais sujeitos a variações extremas Em suma a normalização é uma etapa estratégica que impacta diretamente a eficácia dos modelos analíticos e a interpretação correta dos resultados Ao garantir uma base de dados equilibrada e comparável essa técnica fortalece a confiabilidade das inferências e melhora a performance computacional dos métodos utilizados contribuindo significativamente para o sucesso das aplicações de ciência de dados 2114 OUTLIERS BOXPLOT Os valores atípicos também conhecidos como outliers são observações que se desviam significativamente do padrão geral de um conjunto de dados Esses valores extremos podem surgir por diferentes razões como erros de mensuração falhas na entrada de dados flutuações experimentais ou em muitos casos características genuínas e relevantes que refletem fenômenos incomuns ou exceções significativas WASSERMAN 2020 Embora os outliers possam representar ruídos que distorcem a análise também podem oferecer informações importantes quando contextualizados corretamente Sua presença portanto deve ser avaliada com cautela considerando não apenas a natureza estatística da anomalia mas também sua possível relevância para o domínio de aplicação A presença de outliers tem um impacto direto sobre a qualidade das análises estatísticas e a confiabilidade dos modelos preditivos Eles podem influenciar 17 18 métricas de tendência central como média e dispersão como desvio padrão enviesar modelos de regressão e comprometer o desempenho de algoritmos de aprendizado de máquina Em particular Cao et al 2023 demonstram que a remoção ou o tratamento adequado de outliers é essencial em modelos de previsão de demanda e gestão de receita que combinam estruturas de demanda independentes com modelos logit multinomial O estudo destaca como a presença de outliers pode levar à subestimação ou superestimação de demanda impactando negativamente a eficiência de decisões estratégicas como precificação e alocação de recursos Isso mostra que ignorar a existência de valores extremos pode acarretar sérias consequências na prática especialmente em contextos onde a acurácia dos dados é vital para decisões operacionais Para a detecção de outliers uma das ferramentas gráficas mais eficientes e amplamente utilizadas é o boxplot ou gráfico de caixa e bigodes Esse gráfico oferece uma representação visual da distribuição dos dados com base em medidas resumo como os quartis mediana mínimo e máximo e permite a identificação objetiva de valores discrepantes O Intervalo Interquartil IQR calculado como a diferença entre o terceiro quartil Q3 e o primeiro quartil Q1 é usado como base para definir os limites dos chamados bigodes do boxplot Valores que se encontram fora do intervalo compreendido entre Q1 15IQR e Q3 15IQR são considerados potenciais outliers e geralmente são destacados no gráfico por pontos individuais KRISHNAMURTHY DESHPANDE 2022 ZUUR IENO ELPHICK 2019 A simplicidade e clareza visual do boxplot o tornam especialmente valioso para análises exploratórias iniciais permitindo decisões rápidas quanto à necessidade de intervenções mais aprofundadas nos dados A análise gráfica por meio de boxplots é especialmente útil durante a fase de exploração de dados no processo de Knowledge Discovery in Databases KDD uma vez que permite uma rápida identificação de anomalias antes da aplicação de técnicas mais robustas de modelagem Em contextos de negócios saúde engenharia ou ciências sociais os outliers podem representar tanto riscos analíticos quanto oportunidades de descoberta dependendo de como são interpretados Em alguns casos esses valores extremos podem sinalizar mudanças importantes no comportamento dos dados revelando tendências emergentes ou eventos de alto impacto que merecem atenção especial Adicionalmente métodos estatísticos como o teste de Grubbs zscore padronizado e técnicas de clusterização como DBSCAN também são amplamente utilizados para detectar outliers em grandes volumes de dados O DBSCAN por exemplo identifica pontos que não pertencem a regiões de alta densidade sendo eficaz na detecção de outliers em conjuntos de dados multidimensionais Com o avanço da ciência de dados têmse adotado abordagens híbridas que combinam estatística clássica com algoritmos de aprendizado de máquina para classificar ponderar e até mesmo corrigir ou imputar valores discrepantes com maior grau de confiabilidade HAN et al 2011 Essas estratégias visam não apenas identificar mas também integrar inteligentemente os outliers ao processo analítico seja por meio de exclusão justificada ou pela adaptação dos modelos para lidar com essas variações Dessa forma a gestão criteriosa de outliers tornase uma etapa 19 estratégica para garantir resultados analíticos mais robustos coerentes e aplicáveis em diferentes domínios 21141 ESTRUTURA E COMPONENTES DE UM BOXPLOT O boxplot também conhecido como gráfico de caixa e bigodes boxand whisker plot é uma ferramenta gráfica amplamente utilizada na estatística exploratória para representar de forma sintética a distribuição de um conjunto de dados Sua principal função é apresentar visualmente cinco medidasresumo fundamentais valor mínimo primeiro quartil Q1 mediana Q2 terceiro quartil Q3 e valor máximo permitindo observar a dispersão a simetria e a presença de possíveis valores atípicos outliers em um conjunto de dados PAGANO GAUVREAU 2018 Essa técnica oferece uma visão clara da variabilidade dos dados e da densidade em torno dos quartis sendo particularmente eficaz na comparação entre distribuições distintas ou na identificação de assimetrias e desvios A seguir detalhamse os principais elementos constituintes do boxplot Mediana Q2 Representada por uma linha horizontal localizada dentro da caixa a mediana corresponde ao segundo quartil ou seja o ponto que separa os 50 inferiores dos 50 superiores dos dados É uma medida robusta de tendência central menos sensível a valores extremos do que a média aritmética FIELD MILES FIELD 2017 Caixa Q1 a Q3 A estrutura retangular do gráfico compreende a faixa entre o primeiro quartil Q1 25 dos dados e o terceiro quartil Q3 75 dos dados Esse intervalo denominado amplitude interquartil IQR Interquartile Range representa os 50 centrais dos dados excluindo os extremos inferiores e superiores A IQR é uma medida fundamental de dispersão eficaz para caracterizar a variabilidade dos dados sem a influência de outliers WASSERMAN 2020 WICKHAM GROLEMUND 2017 Bigodes Whiskers Os bigodes se estendem a partir das extremidades da caixa até os limites inferiores e superiores definidos como 15 vezes a IQR abaixo de Q1 e acima de Q3 Valores dentro desses limites são considerados normais na distribuição dos dados KRISHNAMURTHY DESHPANDE 2022 A extensão dos bigodes ajuda a visualizar a cauda da distribuição e identificar a assimetria Valores Atípicos Outliers Dados que se encontram fora dos limites dos bigodes são identificados como outliers e geralmente são representados por círculos asteriscos ou outros símbolos Esses valores podem indicar erros de medição registros incorretos ou fenômenos reais fora da distribuição esperada e merecem investigação especial pois podem influenciar de forma significativa análises estatísticas e decisões baseadas em dados ZUUR IENO ELPHICK 2019 Valores Mínimos e Máximos dentro dos limites Os extremos inferiores e superiores que ainda se encontram dentro dos limites definidos pelos bigodes 19 20 representam os menores e maiores valores considerados regulares na distribuição Eles delimitam a cauda do conjunto de dados sem incluir os pontos considerados atípicos KABACOFF 2021 Além de sua simplicidade visual o boxplot é especialmente útil em contextos comparativos como quando se deseja analisar diferentes grupos ou categorias de uma variável Ao permitir a visualização simultânea de mediana dispersão e simetria o gráfico de caixa e bigodes tornase uma ferramenta indispensável em análises exploratórias diagnósticos estatísticos e em aplicações que envolvem a limpeza e validação de dados como no processo de Knowledge Discovery in Databases KDD A Figura 2 demonstra como as informações são visualmente dispostas Figura 2 Boxplot Fonte Adaptado pelo autor 2025 Os boxplots são ferramentas eficazes para a identificação de outliers análise de distribuição e comparação entre grupos de dados Neles os outliers são facilmente identificados como pontos fora dos bigodes facilitando a visualização de anomalias Além disso o boxplot permite uma rápida visualização da distribuição dos dados evidenciando a presença de simetria ou assimetria Ao comparar boxplots de diferentes grupos é possível identificar diferenças significativas na distribuição e na presença de outliers entre os grupos Ao usar boxplots é possível visualizar claramente como os outliers podem influenciar a distribuição dos dados Por exemplo a presença de outliers pode distorcer a média puxandoa para cima ou para baixo Outliers também aumentam a variabilidade aparente dos dados refletida pelo comprimento dos bigodes do 21 boxplot Identificar e tratar outliers pode levar a decisões mais informadas e precisas melhorando a qualidade das análises e previsões 2115 USO DO PYTHON No cenário acadêmico o Python se tornou uma das ferramentas mais utilizadas para preparação dos dados sendo amplamente adotado em projetos de pesquisa ensino e desenvolvimento tecnológico Essa popularidade devese à sua sintaxe simples comunidade ativa e vasto ecossistema de bibliotecas voltadas para ciência de dados De acordo com o Times Higher Education World University Rankings 2023 o Python foi identificado como a linguagem padrão em 92 das 100 melhores universidades do mundo para cursos de ciência de dados engenharia da computação estatística aplicada e áreas afins evidenciando sua consolidação como linguagem base no ensino superior e na produção científica global Essa predominância se verifica especialmente no contexto da descoberta de conhecimento em bases de dados KDD Knowledge Discovery in Databases onde o Python tem desempenhado um papel central na condução das etapas de extração transformação limpeza análise e modelagem dos dados Sua flexibilidade e integração com ambientes como Jupyter Notebook tornam o processo mais dinâmico reprodutível e visual o que favorece tanto o aprendizado quanto a validação científica Além disso sua compatibilidade com outras linguagens e plataformas permite que pesquisadores e profissionais realizem desde tarefas simples de tratamento de dados até experimentos complexos de inteligência artificial e mineração preditiva No campo corporativo a linguagem também tem ganhado espaço pela sua capacidade de automatizar processos construir pipelines analíticos escaláveis e permitir a análise de grandes volumes de dados com eficiência Assim o Python tornouse uma ponte sólida entre o ambiente acadêmico e o mercado de trabalho sendo considerado um diferencial competitivo para cientistas de dados engenheiros de machine learning e analistas de negócios Dessa forma é possível afirmar que a utilização do Python auxilia de forma relevante na garantia da adequação dos dados para análises mais detalhadas e na implementação de modelos avançados de mineração oferecendo suporte robusto para todas as fases do ciclo de vida da ciência de dados Sua adoção massiva justificase não apenas pela facilidade de uso mas também pela confiabilidade e amplitude de recursos disponíveis Abaixo são mencionadas algumas das principais bibliotecas do Python e suas funcionalidades essenciais destacando a importância dessas ferramentas na manipulação eficaz dos dados 21 22 21151 PANDAS A biblioteca Pandas desenvolvida por Wes McKinney 2010 tornouse uma das ferramentas mais utilizadas em ciência de dados e análise estatística com Python Seu desenvolvimento visou suprir a necessidade de uma estrutura de dados robusta e eficiente para análise de dados em grande escala especialmente em aplicações que envolvem séries temporais e dados numéricos Desde então Pandas tem se consolidado como um dos principais pilares do ecossistema Python voltado à análise de dados sendo adotada tanto em ambientes acadêmicos quanto empresariais dada sua versatilidade e facilidade de uso Dentre suas funcionalidades mais relevantes destacamse as estruturas de dados fundamentais o DataFrame e a Series O DataFrame é uma estrutura bidimensional semelhante a uma planilha ou tabela relacional composta por colunas com rótulos e tipos de dados heterogêneos enquanto a Series é uma estrutura unidimensional comparável a um vetor indexado Essas estruturas permitem ao analista manipular dados de maneira intuitiva aplicando filtros transformações e operações estatísticas com poucas linhas de código A flexibilidade dessas abstrações facilita desde tarefas simples como o carregamento e visualização de dados até etapas mais complexas de engenharia de atributos Além disso o Pandas oferece suporte abrangente para leitura e escrita de arquivos nos mais variados formatos como CSV Excel JSON Parquet e bancos de dados relacionais via SQL facilitando a integração com diferentes fontes de dados MCKINNEY 2010 Essa capacidade é essencial em contextos onde a heterogeneidade e o volume de dados requerem ferramentas capazes de garantir interoperabilidade entre sistemas A biblioteca também provê recursos para converter dados em tempo real tratar datas e realizar fusões entre conjuntos distintos de forma eficiente Suas capacidades de manipulação e transformação de dados incluem seleção e indexação por rótulos ou posições filtragem condicional ordenação renomeação de colunas substituição de valores criação de colunas derivadas e reestruturação de dados como pivotamento e unpivotamento Esses recursos tornam o Pandas uma ferramenta completa para o processo de limpeza padronização e preparação dos dados antes da análise exploratória e modelagem estatística Outro recurso amplamente explorado é o agrupamento e agregação de dados por meio da função groupby que permite dividir conjuntos de dados com base em critérios específicos aplicar funções de agregação e combinar os resultados Isso é fundamental para análises comparativas entre grupos como médias segmentadas totais por categorias e estatísticas descritivas em diferentes níveis de granularidade Pandas também possui métodos eficientes para o tratamento de valores ausentes NaN como preenchimento fillna interpolação exclusão de linhas ou colunas com dados faltantes dropna além da detecção de outliers e 23 substituição condicional Essas funcionalidades são indispensáveis em contextos onde a integridade dos dados é comprometida por lacunas de informação registros corrompidos ou inconsistências Adicionalmente a biblioteca permite operações avançadas de mesclagem e junção de dados com funções como merge join e concat possibilitando o cruzamento de informações de diferentes tabelas com base em chaves comuns Isso é particularmente relevante em contextos de integração de dados heterogêneos como aqueles provenientes de múltiplas fontes em projetos de Business Intelligence Data Warehousing e sistemas de recomendação A combinação de desempenho usabilidade e integração torna o Pandas uma ferramenta indispensável em diversas etapas do processo de Knowledge Discovery in Databases KDD especialmente nas fases de préprocessamento exploração e preparação de dados antes da aplicação de modelos estatísticos ou de aprendizado de máquina Sua ampla adoção na comunidade científica e no setor corporativo é evidenciada pela vasta documentação número de contribuições no GitHub e integração com bibliotecas como NumPy Matplotlib Scikitlearn e Seaborn consolidando seu papel como um dos principais alicerces para análises orientadas a dados 21152 NUMPY A biblioteca NumPy Numerical Python é uma das ferramentas fundamentais no ecossistema da ciência de dados com Python oferecendo suporte a estruturas de dados eficientes e operações matemáticas de alto desempenho Desenvolvida inicialmente por Travis Oliphant e atualmente mantida como projeto de código aberto ela se consolidou como a base para a maioria das bibliotecas científicas e analíticas em Python De acordo com Harris et al 2020 o NumPy é amplamente utilizado por seu desempenho superior e por permitir a manipulação eficiente de grandes volumes de dados numéricos Sua adoção é recorrente em ambientes acadêmicos laboratórios de pesquisa e setores da indústria que demandam análise matemática e computação científica de forma intensiva A principal estrutura de dados do NumPy é o ndarray um array multidimensional homogêneo que permite armazenar e operar com grandes conjuntos de dados numéricos de forma otimizada Essa estrutura é fundamental para o processamento vetorial e matricial substituindo as listas e estruturas nativas do Python quando se trata de aplicações que exigem desempenho e precisão computacional O ndarray proporciona não apenas economia de memória mas também velocidade de processamento uma vez que é implementado em C e realiza operações de baixo nível com grande eficiência Dentre suas principais funcionalidades destacase a criação indexação e manipulação de arrays multidimensionais viabilizando o desenvolvimento de algoritmos científicos financeiros e estatísticos com grande eficiência O NumPy oferece também uma vasta gama de funções matemáticas estatísticas e lógicas que permitem realizar desde operações básicas como soma subtração multiplicação divisão exponenciação até cálculos mais avançados como transformadas de Fourier álgebra linear integração numérica interpolação e geração de números 23 24 aleatórios Isso torna a biblioteca altamente adaptável a uma ampla gama de domínios de aplicação Um dos maiores diferenciais da biblioteca está na sua capacidade de realizar operações vetorizadas ou seja aplicar funções diretamente a arrays inteiros sem a necessidade de loops explícitos Essa característica não apenas simplifica o código e tornao mais legível como também melhora significativamente o desempenho principalmente em relação às listas tradicionais do Python Isso ocorre porque essas operações são otimizadas internamente em linguagem C permitindo a execução em baixa latência e com consumo eficiente de recursos computacionais Além disso o NumPy conta com recursos como broadcasting que permite realizar operações entre arrays de diferentes dimensões de maneira automática e eficiente Essa funcionalidade é especialmente útil em tarefas de modelagem matemática e simulações onde é comum realizar cálculos envolvendo vetores e matrizes de tamanhos variados O NumPy é frequentemente utilizado como fundamento para outras bibliotecas da ciência de dados como Pandas Matplotlib Scikitlearn TensorFlow Keras e PyTorch pois fornece o suporte matemático necessário para manipulação de dados em diferentes contextos Sua interoperabilidade com bibliotecas de álgebra linear sistemas de equações diferenciais e manipulação de imagens tornao essencial em áreas como machine learning análise estatística engenharia economia computacional simulação física e inteligência artificial Em suma o NumPy representa um pilar central na infraestrutura de computação científica com Python sendo indispensável para qualquer pipeline de análise de dados robusto Sua robustez flexibilidade e desempenho explicam sua posição de destaque entre as ferramentas utilizadas para o processo de Knowledge Discovery in Databases KDD especialmente nas etapas de exploração e preparação quantitativa dos dados 21153SCIKITLEARN A biblioteca Scikitlearn é uma das principais ferramentas disponíveis no ecossistema Python para a implementação de técnicas de aprendizado de máquina machine learning Desenvolvida originalmente por Pedregosa et al 2011 ela oferece uma interface unificada e de fácil utilização para uma ampla gama de algoritmos de aprendizado supervisionado e não supervisionado além de ferramentas complementares para avaliação validação e otimização de modelos preditivos Sua popularidade se deve não apenas à robustez de seus algoritmos mas também à facilidade de integração com bibliotecas como NumPy SciPy Pandas e Matplotlib permitindo fluxos de trabalho consistentes reprodutíveis e escaláveis em ciência de dados Um dos principais diferenciais do Scikitlearn é sua modularidade e integração harmoniosa com bibliotecas fundamentais para o processamento numérico e manipulação de dados Essa arquitetura modular permite a construção de pipelines robustos que englobam desde o préprocessamento até a avaliação e refinamento 25 de modelos preditivos Isso torna possível testar e comparar diferentes abordagens de forma sistemática e organizada característica essencial em ambientes acadêmicos e corporativos que demandam experimentação rigorosa As principais funcionalidades da biblioteca incluem Implementação de algoritmos de aprendizado supervisionado como regressão linear regressão logística máquinas de vetor de suporte SVM árvores de decisão florestas aleatórias random forest e redes neurais artificiais simples Esses algoritmos são aplicáveis a tarefas de classificação por exemplo prever a categoria de um cliente e regressão como prever o valor de uma venda ou temperatura A versatilidade dos modelos permite sua utilização em diversos domínios como finanças marketing saúde e educação Modelos de aprendizado não supervisionado como kmeans DBSCAN aglomeração hierárquica e análise de componentes principais PCA amplamente utilizados em tarefas de clusterização segmentação de grupos sem rótulos e redução de dimensionalidade compressão de variáveis para visualização ou eliminação de ruído Essas técnicas são úteis quando não se possui variáveisalvo e desejase explorar padrões ocultos nos dados Ferramentas de préprocessamento de dados incluindo normalização padronização codificação de variáveis categóricas OneHot Encoding imputação de valores ausentes binarização e seleção de atributos feature selection Essas etapas são essenciais para garantir que os dados estejam em formato adequado para a modelagem minimizando problemas causados por escalas diferentes dados faltantes ou redundância de variáveis Técnicas de validação cruzada crossvalidation e métodos de avaliação de desempenho como matrizes de confusão curvas ROC métricas de precisão recall F1score e acurácia Essas ferramentas permitem medir o desempenho dos modelos de forma confiável evitando problemas como overfitting quando o modelo aprende ruídos em vez de padrões e underfitting quando o modelo é incapaz de capturar as tendências dos dados Construção de pipelines automatizados recurso essencial para encadear etapas do fluxo de trabalho de aprendizado de máquina Com isso é possível padronizar a aplicação de transformações seleção de atributos e ajuste de modelos em um único objeto facilitando testes reuso de código e reprodutibilidade dos experimentos O Scikitlearn também oferece suporte a técnicas como ajuste de hiperparâmetros por grid search e random search além de implementações para métricas customizadas modelos probabilísticos e técnicas de balanceamento de classes como SMOTE Synthetic Minority Oversampling Technique Sua versatilidade permite atender desde projetos introdutórios até aplicações mais avançadas em modelagem preditiva 25 26 Com ampla documentação uma comunidade ativa de desenvolvedores e usuários tutoriais atualizados e compatibilidade com ferramentas de visualização como Matplotlib e Seaborn o Scikitlearn é hoje considerado um dos frameworks mais acessíveis e poderosos para o desenvolvimento de soluções em ciência de dados Sua arquitetura modular associada à simplicidade de uso o consolidou como uma das bibliotecas mais utilizadas em pesquisas acadêmicas projetos educacionais ambientes corporativos e prototipagem rápida de modelos de aprendizado de máquina 21154 MATPLOTLIB A biblioteca Matplotlib é uma ferramenta de visualização de dados em Python altamente versátil e amplamente utilizada na comunidade científica e no setor de análise de dados Desenvolvida inicialmente por John D Hunter 2007 ela se consolidou como um dos principais recursos gráficos disponíveis na linguagem Python servindo como base para outras bibliotecas de visualização como Seaborn Plotly e Pandas Visualization Seu principal objetivo é permitir que pesquisadores analistas e desenvolvedores representem visualmente os dados de forma clara precisa e personalizável facilitando tanto a exploração quanto a apresentação de informações quantitativas e qualitativas Matplotlib destacase por sua capacidade de gerar desde gráficos simples e rápidos até visualizações altamente customizadas o que a torna apropriada para diversos níveis de complexidade em projetos acadêmicos científicos e corporativos Além disso é compatível com ambientes interativos como Jupyter Notebook Google Colab e IDEs convencionais permitindo uma experiência flexível e interativa de análise Suas principais funcionalidades incluem Criação de uma ampla variedade de gráficos é possível gerar gráficos de linha barras setores pizza dispersão scatter histogramas gráficos de área gráficos 3D mapas de calor heatmaps entre outros Essa variedade torna a biblioteca adequada tanto para análises exploratórias quanto para apresentações formais Customização extensiva dos elementos visuais os gráficos podem ser modificados em praticamente todos os aspectos cores estilos de linha marcadores tamanhos de fonte títulos rótulos nos eixos escalas grades legendas e muito mais Isso permite adequar a visualização às necessidades específicas do estudo ou da comunicação de resultados Integração com outras bibliotecas do ecossistema Python como NumPy Pandas e Scikitlearn viabilizando a visualização direta de dados armazenados em arrays e DataFrames Essa integração reduz a necessidade de transformações adicionais e acelera o processo de análise Produção de gráficos de alta qualidade compatíveis com publicações científicas e apresentações profissionais Os gráficos podem ser exportados 27 para diversos formatos como PNG SVG PDF e EPS com alta resolução e fidelidade visual Criação de subplots e layouts complexos por meio da função subplot e do módulo gridspec é possível organizar múltiplos gráficos em uma única figura facilitando a comparação de resultados ou a apresentação de diferentes aspectos de um mesmo conjunto de dados Além disso Matplotlib oferece suporte a interatividade básica como zoom pan atualização dinâmica de gráficos em tempo real e integração com interfaces gráficas GUI o que contribui para aplicações que demandam visualizações reativas ou dinâmicas Devido à sua ampla documentação comunidade ativa e versatilidade de aplicação Matplotlib tornouse uma escolha praticamente padrão para cientistas de dados e pesquisadores que trabalham com visualização gráfica no contexto de descoberta de conhecimento em bases de dados KDD Sua aplicabilidade vai desde o ensino de estatística básica até o desenvolvimento de painéis interativos e protótipos de dashboards analíticos 21155 SEABORN Seaborn é uma biblioteca de visualização de dados em Python desenvolvida sobre a base do Matplotlib com o objetivo de simplificar e aprimorar a criação de gráficos estatísticos Lançada por Michael Waskom e colaboradores WASKOM et al 2020 Seaborn oferece uma sintaxe mais intuitiva e recursos avançados que facilitam a construção de visualizações informativas elegantes e estatisticamente robustas Sua proposta é tornar a análise exploratória de dados mais acessível e eficiente sobretudo para usuários que trabalham com grandes volumes de dados tabulares Ao se integrar de forma nativa com as estruturas de dados do Pandas Seaborn permite a criação de gráficos diretamente a partir de DataFrames reduzindo significativamente a necessidade de manipulações manuais de dados antes da visualização Essa integração também favorece a aplicação de filtros agrupamentos e mapeamentos estéticos com grande facilidade promovendo agilidade na investigação de padrões tendências e relações entre variáveis Suas principais funcionalidades incluem Variedade de gráficos estatísticos Seaborn fornece diversas opções para representar distribuições de dados como histplot kdeplot e boxplot relações bivariadas scatterplot lineplot e comparações categóricas barplot pointplot countplot entre outros Esses gráficos são projetados com foco na clareza estatística auxiliando na detecção de padrões relevantes Criação direta a partir de DataFrames A biblioteca foi pensada para trabalhar de forma fluida com os objetos do Pandas O usuário pode simplesmente passar o nome das colunas como argumentos para os eixos 27 28 dos gráficos o que facilita o desenvolvimento de visualizações em fluxos de trabalho analíticos baseados em tabelas Temas e estilos predefinidos Seaborn conta com um conjunto de estilos visuais integrados como darkgrid whitegrid dark white e ticks que proporcionam um aspecto visual profissional às visualizações com mínima necessidade de customização adicional Simplicidade na criação de visualizações complexas Em comparação ao Matplotlib Seaborn abstrai muitos comandos de baixo nível permitindo que gráficos complexos sejam gerados com poucas linhas de código Isso é especialmente útil para usuários iniciantes ou para análises exploratórias rápidas Suporte robusto para dados categóricos A biblioteca oferece gráficos específicos para variáveis categóricas como gráficos de barras pontos e contagem permitindo a avaliação visual do comportamento de diferentes grupos ou categorias em relação a variáveis numéricas Mapas de calor heatmaps Seaborn inclui ferramentas para criação de mapas de calor a partir de matrizes de correlação o que é extremamente útil na identificação visual de associações entre múltiplas variáveis Esses mapas utilizam cores para representar a intensidade das correlações facilitando a análise multidimensional Além dessas funcionalidades Seaborn também permite a incorporação de elementos estatísticos aos gráficos como intervalos de confiança tendências de regressão linear e visualizações condicionais por subgrupos com hue col row tornandose uma ferramenta poderosa para análises exploratórias guiadas por estatística visual Por sua combinação de facilidade de uso integração com outras bibliotecas como Pandas NumPy e Matplotlib e apelo visual Seaborn é amplamente adotada em projetos acadêmicos pesquisas científicas estudos de mercado e aplicações profissionais em ciência de dados Seu papel na fase de exploração de dados do processo de Knowledge Discovery in Databases KDD é especialmente relevante pois auxilia na geração de insights visuais que orientam decisões de modelagem e préprocessamento 21156 MISSINGNO Outra ferramenta relevante no ecossistema Python é a Missingno uma biblioteca de visualização de dados especialmente projetada para facilitar a identificação a análise e o diagnóstico de valores ausentes em conjuntos de dados Essa biblioteca é particularmente útil durante a fase de análise exploratória no processo de Knowledge Discovery in Databases KDD pois fornece representações gráficas que tornam visível não apenas a quantidade de dados faltantes mas também seus padrões de ocorrência ao longo das variáveis WASKOM et al 2020 29 Ao contrário de abordagens puramente numéricas ou tabulares a visualização gráfica oferecida pelo Missingno permite detectar relações estruturais entre os valores ausentes como colunas altamente correlacionadas em termos de ausência grupos de registros com padrões semelhantes de lacunas ou a predominância de ausências em blocos temporais específicos Essa compreensão visual é fundamental para orientar decisões sobre imputação remoção de registros ou tratamento condicional estratégias essenciais para preservar a integridade dos modelos preditivos subsequentes As principais funcionalidades da biblioteca incluem Integração com a biblioteca Pandas O Missingno opera de forma nativa com DataFrames o que facilita sua aplicação direta em fluxos de trabalho baseados em Pandas Com comandos simples é possível gerar gráficos como matrizes mapas de calor diagramas de barras e dendrogramas todos voltados à inspeção de dados ausentes Visualizações específicas para dados faltantes A biblioteca disponibiliza gráficos como msnomatrix que exibe a presença ou ausência de dados em linhas e colunas por meio de barras verticais msnoheatmap que mostra a correlação de ausência entre colunas destacando variáveis que frequentemente têm valores ausentes simultaneamente msnobar que apresenta a contagem de valores não nulos por coluna msnodendrogram que agrupa colunas com padrões semelhantes de ausência usando hierarquia visual Interface simples e altamente interpretável A sintaxe é direta exigindo poucas linhas de código para gerar gráficos com grande poder informativo o que torna a biblioteca especialmente atrativa para iniciantes ou para análises rápidas em ambientes exploratórios O domínio dessas ferramentas como o Missingno e outras bibliotecas de suporte à preparação de dados contribui significativamente para o aprimoramento da qualidade dos dados analisados reduzindo vieses e aumentando a confiabilidade dos modelos analíticos construídos Além disso fortalece as competências analíticas dos profissionais capacitandoos a diagnosticar documentar e tratar deficiências nos dados com maior eficácia Nesse contexto o conhecimento em Python e em suas bibliotecas associadas configurase como um recurso valioso e estratégico tanto no meio acadêmico quanto no setor produtivo Como destaca VanderPlas 2016 o domínio dessas ferramentas não apenas acelera a produtividade na análise de dados mas também amplia a capacidade de tomada de decisão baseada em evidências confiáveis e reprodutíveis 29 30 212 TRANSFORMAÇÃO DE DADOS A transformação de dados consiste em um conjunto de processos destinados a modificar os dados brutos com o objetivo de adaptálos às exigências das etapas subsequentes de análise e modelagem Entre os procedimentos mais comuns destacamse a normalização a padronização a discretização a codificação de variáveis categóricas e a transformação logarítmica entre outros Essas técnicas são fundamentais para garantir que os dados estejam em um formato adequado para os algoritmos de mineração de dados e aprendizado de máquina melhorando não apenas a performance computacional mas também a robustez e acurácia dos modelos gerados Dados em escalas distintas por exemplo podem comprometer algoritmos sensíveis à magnitude dos valores como os baseados em distância motivo pelo qual a transformação correta dos atributos é uma etapa crítica no ciclo de vida da análise de dados Já a análise multivariada é um ramo da estatística que lida com a observação e análise simultânea de múltiplas variáveis dependentes permitindo uma compreensão mais abrangente de fenômenos complexos e interdependentes Ela é amplamente utilizada em diversas áreas do conhecimento incluindo os estudos ambientais geográficos e socioeconômicos De acordo com Nijkamp 1999 a análise multivariada não visa necessariamente encontrar uma solução ótima mas sim oferecer uma representação mais realista e interpretável de fenômenos compostos por múltiplos fatores quantitativos e qualitativos frequentemente em conflito ou correlação mútua Ferramentas como análise de componentes principais PCA análise fatorial análise de agrupamentos cluster analysis e análise discriminante são comumente utilizadas nesse contexto para identificar padrões reduzir a dimensionalidade dos dados e explorar relações latentes entre variáveis No método proposto para segmentação de clientes B2B a análise multivariada desempenha um papel estratégico ao viabilizar a exploração estruturada e interpretável de grandes volumes de informações frequentemente compostos por variáveis heterogêneas como faturamento porte da empresa tempo de relacionamento volume de compras entre outros Essa abordagem estatística permite identificar agrupamentos naturais de clientes facilitando a visualização de perfis semelhantes e apoiando decisões baseadas em dados reais Assim a análise multivariada quando aliada a uma transformação adequada dos dados fortalece a fundamentação estatística e comercial das estratégias de segmentação contribuindo de maneira decisiva para a definição de ações personalizadas priorização de recursos e otimização do relacionamento com diferentes perfis de clientes 2121 MÉTODO DE CLUSTERIZAÇÃO A análise de agrupamentos ou cluster analysis referese a um conjunto de técnicas estatísticas que têm como objetivo principal agrupar objetos ou observações com base em suas semelhanças e diferenças buscando identificar estruturas naturais nos dados A ideia central é formar grupos chamados de clusters de forma que os elementos pertencentes a um mesmo grupo apresentem alta similaridade entre si enquanto os grupos diferentes sejam idealmente o mais 31 distintos possível uns dos outros Essa similaridade geralmente é medida por meio de distâncias matemáticas como a distância euclidiana ou a de Manhattan aplicadas sobre as variáveis disponíveis MALHOTRA 2006 Diferentemente de métodos supervisionados a análise de agrupamentos não pressupõe uma variávelalvo ou categorias prédefinidas Ela é uma técnica descritiva utilizada quando não se conhece a priori a estrutura do conjunto de dados permitindo descobrir padrões latentes e segmentos relevantes sem interferência de suposições Por isso não se faz distinção entre variáveis independentes e dependentes todas são consideradas na definição das semelhanças Como aponta Hair et al 2009 essa característica torna o método especialmente valioso em pesquisas exploratórias onde o objetivo é revelar agrupamentos naturais de indivíduos objetos ou empresas a partir de um grande volume de dados multivariados Esse tipo de análise se mostra extremamente útil em contextos onde o número de observações é elevado tornando impraticável a análise individual de cada elemento A partir da formação dos clusters é possível reduzir a complexidade dos dados facilitando tanto a visualização quanto a interpretação de tendências e comportamentos semelhantes entre os elementos agrupados Dessa forma a análise de agrupamentos é frequentemente empregada em áreas como marketing biologia psicologia geografia e ciência de dados por exemplo na segmentação de clientes classificação de espécies agrupamento de regiões geográficas ou na redução de dimensionalidade para aprendizado de máquina Na análise de agrupamentos não há conhecimento prévio sobre o número tamanho ou características dos grupos a serem formados Os algoritmos assumem que os dados falarão por si e os clusters são obtidos com base em medidas matemáticas de proximidade sem qualquer rótulo externo Por isso tratase de uma técnica não supervisionada voltada à descoberta de padrões ocultos nos dados HAIR et al 2009 O processo de clusterização pode ser dividido em duas etapas fundamentais 1 a estimação das medidas de similaridade ou dissimilaridade entre os objetos e 2 a aplicação de um algoritmo de agrupamento que utilizará essas medidas para formar os grupos Existem diversas técnicas para conduzir essa análise e a escolha da abordagem mais adequada depende do tipo de dados do objetivo do estudo e da quantidade de informações disponíveis Segundo Hair et al 2009 as técnicas de agrupamento podem ser classificadas em dois grandes grupos a Abordagem Hierárquica caracterizase pela construção de uma estrutura em forma de árvore dendrograma a partir de fusão sucessiva aglomeração ou divisão recursiva divisiva dos elementos Inicialmente cada observação é tratada como um grupo separado e os grupos são combinados com base em critérios de proximidade formando novos grupos em níveis hierárquicos até que todos estejam reunidos O dendrograma resultante mostra visualmente as distâncias entre os agrupamentos formados permitindo ao analista decidir a posteriori o número mais adequado de clusters com base em saltos significativos nas distâncias 31 32 b Abordagem Não Hierárquica ao contrário da hierárquica essa abordagem exige que o número de clusters seja definido previamente pelo pesquisador O algoritmo mais conhecido desta categoria é o kmeans que busca particionar os dados em k grupos distintos minimizando a variância intracluster e maximizando a variância entre os clusters A técnica é eficiente e amplamente utilizada sobretudo em contextos com grandes volumes de dados onde o custo computacional da abordagem hierárquica se torna inviável Ambas as abordagens possuem vantagens e limitações e muitas vezes são utilizadas de forma complementar Por exemplo a análise hierárquica pode ser empregada inicialmente para estimar um número apropriado de clusters que então é refinado por meio do kmeans ou de outro método não hierárquico A escolha criteriosa da abordagem e da métrica de similaridade é fundamental para garantir agrupamentos coerentes e interpretáveis especialmente em aplicações como a segmentação de clientes B2B onde decisões estratégicas serão tomadas com base nos perfis identificados 21211 ELBOW O método do cotovelo Elbow Method é uma técnica visual amplamente empregada na determinação do número ideal de clusters em análises de agrupamento especialmente no algoritmo kmeans Seu objetivo é identificar o ponto ótimo em que a adição de novos grupos deixa de trazer ganhos significativos em termos de homogeneidade interna dos clusters evitando tanto o subajuste quanto o super ajuste dos dados À medida que o número de clusters k aumenta a Soma dos Erros Quadrados Sum of Squared Errors SSE também conhecida como inércia total tende a diminuir de forma monotônica uma vez que os dados são divididos em grupos menores e mais específicos Cada ponto é então alocado ao centróide mais próximo e quanto mais grupos existem menor será a distância entre os pontos e seus respectivos centróides resultando em uma queda acentuada do SSE nas primeiras divisões No entanto essa redução se torna menos acentuada a partir de certo valor de k indicando que a inclusão de novos grupos deixa de justificar o custo computacional ou a complexidade adicional O gráfico gerado apresenta então uma forma característica de cotovelo sendo esse ponto de inflexão o mais indicado para definir o número ideal de clusters Figura 3 Exemplificação Gráfica Elbow 33 Fonte Adaptado pelo autor 2025 Na Figura 3 observase a relação entre o número de clusters e o valor da SSE A curva apresenta uma queda acentuada no erro ao se passar de 2 para 3 grupos e continua decrescendo conforme mais clusters são adicionados No entanto a redução marginal da SSE tornase claramente menos expressiva a partir do momento em que o número de clusters alcança 4 Esse comportamento sugere a presença de um cotovelo visual ponto em que o ganho adicional na coesão dos grupos deixa de ser significativo frente ao aumento da complexidade do modelo Essa análise visual é especialmente importante para evitar a criação de clusters excessivos que podem comprometer a interpretabilidade dos resultados e levar à fragmentação de grupos relevantes Por isso com base na análise gráfica apresentada o número ideal de clusters para o conjunto de dados em questão é 4 pois a partir deste ponto os ganhos em termos de redução da SSE são marginalmente pequenos caracterizando um equilíbrio entre simplicidade e eficácia do modelo A escolha de k 4 garante uma segmentação adequada representativa das estruturas latentes do conjunto de dados e alinhada aos objetivos analíticos do estudo 21212 SILHOUETTE Figura 04 Gráfico da Pontuação de Silhueta em função do número de clusters 33 34 Fonte Adaptado pelo autor 2025 Na Figura 04 observase o gráfico da Pontuação de Silhueta em função do número de clusters utilizado como uma das métricas mais relevantes para avaliar a qualidade de agrupamentos em técnicas de clusterização A análise indica que a pontuação atinge seu valor mais elevado acima de 085 quando se opta por 2 agrupamentos Esse resultado sugere que com dois grupos há uma forte coesão interna os elementos dentro do mesmo grupo são bastante semelhantes e boa separação entre os grupos o que demonstra um cenário bastante favorável para a interpretação e uso prático da segmentação A partir do momento em que se aumenta o número de clusters para três ou mais observase uma queda significativa na pontuação atingindo valores próximos de 076 e essa pontuação permanece em um patamar relativamente estável entre 076 e 079 até o oitavo agrupamento Posteriormente ao ultrapassar esse ponto a pontuação volta a cair de forma mais acentuada indicando que agrupamentos com 9 ou 10 clusters já comprometem substancialmente a qualidade da segmentação possivelmente criando divisões artificiais que não refletem padrões reais nos dados Esse comportamento do gráfico evidencia que apesar de ser possível agrupar os dados em diversas quantidades de clusters somente o agrupamento com 2 clusters apresenta uma qualidade estatística realmente alta sendo o único com silhueta acima de 085 Já os demais cenários apresentam pontuações medianas indicando sobreposição de grupos ou pouca distinção entre eles Quando comparamos essa análise com os resultados do Método do Cotovelo Figura 03 percebemos uma divergência metodológica relevante Enquanto o Método do Cotovelo pode sugerir a adoção de 4 ou até 5 clusters com base na inércia redução da soma dos erros quadrados a Pontuação de Silhueta prioriza a qualidade da separação entre grupos apontando para a configuração com apenas 2 clusters como a mais apropriada do ponto de vista interpretativo 35 Essa divergência não deve ser vista como um problema mas como uma riqueza analítica É comum que diferentes métricas ofereçam sugestões distintas especialmente quando os dados apresentam estruturas complexas ou sobreposição entre grupos Por isso é essencial que a definição final do número de clusters leve em consideração uma abordagem multidimensional envolvendo tanto os indicadores estatísticos quanto o conhecimento de domínio os objetivos da segmentação e a viabilidade prática de aplicação dos grupos formados Em síntese o gráfico de Silhueta é uma ferramenta poderosa para validar visual e estatisticamente os resultados da clusterização e neste caso específico indica fortemente que o agrupamento em 2 clusters é o mais eficaz coeso e interpretável para a base de dados analisada 2122 KMEANS O método kmeans é uma técnica de análise não hierárquica amplamente utilizada em projetos de mineração de dados e ciência de dados por sua simplicidade eficiência computacional e facilidade de interpretação dos resultados Ao receber um número prédefinido de agrupamentos k o algoritmo tem como objetivo particionar os dados em k clusters distintos de forma que cada observação pertença ao grupo cujo centroide ponto central do cluster esteja mais próximo Esse processo é repetido sucessivamente até que o modelo atinja um estado estável ou seja até que as observações deixem de mudar de grupo entre as iterações HAIR 2009 HAN et al 2011 Inicialmente os centroides são definidos aleatoriamente no espaço de atributos Em seguida cada observação é associada ao cluster mais próximo com base em uma métrica de distância normalmente a distância Euclidiana Após essa etapa de alocação os centroides de cada grupo são recalculados como a média aritmética das observações pertencentes ao respectivo cluster Essa realocação dos centroides resulta então em uma nova redistribuição dos dados O processo se repete de forma iterativa a cada ciclo os dados são reagrupados em torno dos centroides atualizados e os centroides são novamente recalculados com base nas novas composições dos clusters Esse procedimento iterativo continua até que o algoritmo atinja um ponto de convergência ou seja quando a composição dos clusters deixa de variar entre as iterações consecutivas Em algumas implementações um critério de parada adicional pode ser estabelecido com base em um número máximo de iterações ou em um limiar mínimo de variação entre os centroides O objetivo central do kmeans é minimizar a variância intracluster o que significa reduzir a soma das distâncias quadradas entre os pontos e seus respectivos centroides Com isso o método busca maximizar a coesão interna de cada grupo e a separação entre os diferentes clusters resultando em agrupamentos mais homogêneos internamente e bem distintos entre si Essa característica o torna particularmente eficaz em contextos de segmentação de mercado análise comportamental e agrupamento de padrões de consumo entre outros 35 36 Essa abordagem foi empregada neste trabalho como técnica principal para realizar a segmentação dos dados proporcionando uma maneira objetiva e estatisticamente fundamentada de agrupar os clientes B2B com base em suas características multivariadas A Figura 5 apresenta a visualização dos agrupamentos obtidos com o algoritmo KMeans utilizando redução de dimensionalidade por Análise de Componentes Principais PCA Figura 5 Visualização dos clusters gerados pelo KMeans com redução PCA Fonte Adaptado pelo autor 2025 2123 ANÁLISE FATORIAL A análise fatorial configurase como uma das técnicas estatísticas multivariadas mais relevantes quando o objetivo é compreender a estrutura latente de um conjunto de variáveis interrelacionadas Sua aplicação tem como finalidade principal reduzir a dimensionalidade dos dados por meio da identificação de um número reduzido de fatores subjacentes não observáveis diretamente que juntos explicam a maior parte da variabilidade comum existente entre os indicadores analisados Tratase portanto de uma ferramenta que permite sintetizar informações complexas em estruturas mais manejáveis e interpretáveis facilitando tanto a visualização quanto a compreensão dos fenômenos estudados De acordo com Höppner et al 2018 a análise fatorial é amplamente empregada para revelar padrões ocultos nos dados agrupando variáveis com alto grau de correlação em torno de fatores comuns que representam dimensões 37 latentes de um fenômeno estudado Esse agrupamento é particularmente útil em contextos nos quais se busca entender o comportamento de consumidores identificar segmentos de mercado ou estudar fenômenos sociais e organizacionais em que múltiplas variáveis podem estar relacionadas a construtos teóricos mais amplos O processo metodológico iniciase com a construção da matriz de correlação entre as variáveis observadas a partir da qual se procede à extração dos fatores Entre os métodos mais utilizados para essa extração destacase a Análise de Componentes Principais PCA conforme descrito por Thompson 2004 que permite decompor a variância total dos dados em componentes independentes Cada fator extraído é associado a um autovalor eigenvalue que representa a quantidade de variância explicada por aquele fator específico Além disso são obtidos autovetores eigenvectors que indicam as cargas fatoriais isto é o grau de correlação entre cada variável observada e os fatores latentes Ao considerar essas cargas é possível interpretar os fatores como combinações lineares das variáveis originais sendo que apenas os fatores com variância significativa geralmente com autovalor superior a 1 são mantidos para análise Assim determinase o número ideal de fatores que conseguem explicar uma parcela substancial da variância total do modelo ao mesmo tempo em que se evita a inclusão de fatores espúrios ou pouco representativos Quanto maior o número de fatores retidos maior será a capacidade explicativa da análise porém menor será a simplificação do modelo por isso é fundamental buscar um equilíbrio entre parsimônia e poder explicativo Uma ferramenta complementar que contribui para essa decisão é o Scree Plot ou gráfico de autovalores Essa representação visual permite avaliar o ponto de inflexão da curva indicando quantos fatores devem ser considerados relevantes Esse ponto geralmente associado ao critério de Kaiser que considera autovalores maiores que 1 marca a transição entre fatores significativos e fatores com contribuição marginal para a explicação da variância A seguir apresentase a Figura 6 que ilustra o Scree Plot gerado a partir da análise dos dados do presente estudo Figura 6 Scree Plot Distribuição dos Autovalores por Componente Principal 37 38 Fonte Adaptado pelo autor 2025 Na Figura 6 observase que os dois primeiros componentes principais apresentam autovalores superiores a 1 indicando que explicam uma parcela significativa da variância total do modelo A partir do terceiro componente os autovalores diminuem gradativamente evidenciando uma inclinação menos acentuada na curva Esse comportamento sugere a presença de um ponto de inflexão entre o segundo e o terceiro fator o que reforça a ideia de que os dois primeiros fatores são os mais relevantes para explicar os dados A interpretação adequada desse gráfico auxilia na seleção de um modelo mais parcimonioso evitando tanto a subextração quanto a superextração de fatores A escolha final do número de componentes a serem mantidos deve considerar não apenas os critérios estatísticos como o valor dos autovalores e o percentual de variância explicada mas também o conhecimento teórico do pesquisador e a aplicabilidade prática dos fatores no contexto do estudo Dessa forma o Scree Plot constitui uma ferramenta valiosa para a validação empírica da estrutura fatorial adotada Nesse sentido a análise fatorial desempenha um papel estratégico na redução da complexidade dos dados viabilizando interpretações mais robustas e direcionadas Sua utilidade se estende a diversos campos da pesquisa acadêmica e aplicada incluindo psicometria marketing educação ciências sociais e comportamento do consumidor sendo considerada uma técnica essencial no arsenal metodológico da estatística multivariada 2124 ANALISE DE COMPONENTES PRINCIPAIS PCA A Análise de Componentes Principais PCA Principal Component Analysis é uma das técnicas estatísticas multivariadas mais consagradas para a redução da dimensionalidade de dados Sua principal finalidade consiste em transformar um conjunto possivelmente grande de variáveis interrelacionadas em um novo conjunto menor e composto por variáveis não correlacionadas os chamados 39 componentes principais Esses componentes são combinações lineares das variáveis originais construídas de modo a reter o máximo possível da variância total dos dados no menor número de dimensões Dessa forma a PCA permite preservar a essência da informação contida nos dados originais ao mesmo tempo em que elimina redundâncias e simplifica as estruturas De acordo com Hair et al 2009 a aplicação da PCA iniciase com a padronização das variáveis quando possuem escalas diferentes seguida pela construção da matriz de covariância entre os atributos A partir dessa matriz são calculados os autovalores que indicam a quantidade de variância explicada por cada componente e os autovetores que definem as direções principais da variabilidade nos dados Os componentes principais são então ordenados com base na variância que explicam sendo o primeiro componente aquele que representa a maior variabilidade dos dados o segundo componente representa a maior variância residual ortogonal ao primeiro e assim sucessivamente A Figura 7 apresentada a seguir ilustra o Scree Plot gerado a partir da decomposição PCA do conjunto de dados analisado neste estudo Observase que os dois primeiros componentes explicam uma fração significativa da variância total o que sugere que a maior parte da informação contida nas variáveis originais pode ser representada de forma eficiente em apenas duas dimensões Este tipo de visualização é particularmente útil na definição do número ideal de componentes a serem retidos pois destaca o ponto de inflexão ou joelho onde o acréscimo de novos componentes passa a representar ganhos marginais na variância explicada Figura 7 Scree Plot dos Autovalores por Componente Principal Fonte Adaptado pelo autor 2025 A PCA é especialmente útil em cenários nos quais há um grande número de variáveis que podem dificultar análises ou visualizações diretas Ao condensar essas variáveis em poucos componentes é possível gerar gráficos de dispersão bidimensionais ou tridimensionais que revelam padrões agrupamentos ou outliers 39 40 nos dados Além disso ao eliminar dimensões com variância muito baixa frequentemente associadas a ruídos a PCA melhora o desempenho de modelos computacionais como algoritmos de clusterização classificação e regras de associação favorecendo maior acurácia e menor sobreajuste A utilidade prática da PCA também é observada em estudos como o de Cumps et al 2009 que empregaram essa técnica na etapa de préprocessamento para otimizar a indução de regras com o algoritmo AntMiner O objetivo era extrair regras compreensíveis sobre o alinhamento estratégico entre negócios e Tecnologias da Informação e Comunicação TIC utilizando um extenso conjunto de dados com informações provenientes de 641 organizações Nesse contexto a PCA foi fundamental para reduzir a complexidade dos dados sem comprometer a capacidade explicativa dos modelos gerados evidenciando sua relevância como etapa preparatória na análise de dados em ambientes corporativos e acadêmicos Além de atuar como ferramenta de redução de dimensionalidade a PCA desempenha um papel crítico na identificação de multicolinearidade entre variáveis na priorização de atributos relevantes e na obtenção de insights estruturais sobre o conjunto de dados Sua aplicabilidade é transversal a diversas áreas do conhecimento como finanças biologia marketing engenharia ciência de dados e ciências sociais consolidandose como um recurso metodológico de grande valor em estudos quantitativos 213 DATA MINING PARA CLASSIFICAÇÃO 2131 ALGORITMOS DE CLASSIFICAÇÃO Diante da crescente demanda por análise de grandes volumes de dados e da rápida evolução das tecnologias de inteligência artificial a aplicação de técnicas analíticas avançadas tornouse não apenas relevante mas indispensável para a extração de insights estratégicos e a tomada de decisões baseadas em evidências Em um cenário em que a complexidade e a variedade dos dados crescem exponencialmente métodos como árvores de decisão redes neurais artificiais e algoritmos genéticos têm se consolidado como ferramentas centrais no campo do aprendizado de máquina machine learning e da mineração de dados data mining Essas técnicas vêm revolucionando a forma como as organizações e pesquisadores tratam os dados permitindo o reconhecimento de padrões ocultos a antecipação de comportamentos futuros e a automação de processos decisórios Particularmente os algoritmos de classificação destacamse por sua capacidade de categorizar observações com base em características previamente identificadas o que é essencial em contextos que envolvem diagnóstico segmentação previsão de churn recomendação de produtos entre outros Entre essas abordagens as árvores de decisão têm como principal atrativo a sua interpretabilidade os modelos gerados por esse método são compostos por regras simples estruturadas de forma hierárquica que permitem ao analista compreender o racional por trás de cada decisão ou classificação Essa transparência é especialmente valiosa em áreas que exigem rastreabilidade e explicações claras como o setor financeiro e a área da saúde 41 As redes neurais artificiais por sua vez inspiradas no funcionamento do cérebro humano apresentam notável capacidade de capturar relações não lineares entre variáveis sendo amplamente utilizadas em tarefas que envolvem reconhecimento de padrões complexos classificação multiclasse predição contínua e identificação de anomalias Embora exijam maior poder computacional e apresentem menor interpretabilidade em comparação com as árvores de decisão seu desempenho preditivo em grandes bases de dados é frequentemente superior especialmente quando ajustadas por meio de técnicas de regularização e otimização Os algoritmos genéticos por fim representam uma classe de métodos inspirados nos princípios da seleção natural e da evolução biológica Sua principal aplicação no contexto de mineração de dados está na otimização de modelos preditivos onde são empregados para selecionar subconjuntos ideais de variáveis ajustar hiperparâmetros e descobrir regras de classificação de alta qualidade Um exemplo notório de aplicação é a técnica AntMiner um algoritmo baseado em colônia de formigas e princípios evolutivos utilizado para a indução de regras interpretáveis e a previsão de churn de clientes combinando eficiência e inteligibilidade Neste trabalho cada uma dessas abordagens será discutida em profundidade com foco na aplicação prática e na análise comparativa dos resultados obtidos As árvores de decisão serão exploradas como ferramenta explicativa e interpretável para regras de classificação as redes neurais artificiais serão implementadas como modelo preditivo de maior complexidade e poder de generalização e os algoritmos genéticos serão utilizados como mecanismo de otimização e extração de conhecimento com destaque para sua flexibilidade em problemas de múltiplos objetivos e espaços de busca extensos Essa diversidade metodológica permitirá uma análise abrangente do problema proposto considerando tanto o desempenho quanto a explicabilidade das soluções Figura 8 Comparação entre abordagens de classificação interpretabilidade desempenho preditivo e complexidade computacional 41 42 Fonte Adaptado pelo autor 2025 A Figura 8 ilustra de forma comparativa os três métodos estudados com ênfase em três critérios analíticos interpretabilidade desempenho e complexidade Notase que as árvores de decisão se destacam pela alta transparência e facilidade de explicação enquanto as redes neurais apresentam maior desempenho em predições complexas porém com menor explicabilidade Já os algoritmos genéticos ocupam uma posição intermediária oferecendo boa capacidade de otimização com interpretabilidade moderada o que os torna atrativos em contextos híbridos Essa visualização contribui para fundamentar a escolha metodológica conforme os objetivos específicos do estudo e as restrições do domínio de aplicação 2132 DECISION TREE ARVORES DE DECISÃO PARA REGRAS DE CLASSIFICAÇÃO A técnica da árvore de decisão é amplamente utilizada no aprendizado supervisionado para tarefas de classificação e regressão destacandose como uma das abordagens mais intuitivas e explicáveis dentro do campo da ciência de dados Ela opera segmentando iterativamente o espaço de atributos criando partições que visam maximizar a pureza dos subconjuntos resultantes em relação à variávelalvo Em outras palavras o algoritmo constrói uma estrutura hierárquica em formato de árvore onde cada nó interno representa uma decisão baseada em uma variável e os nósfolha indicam a predição final classe ou valor Uma das grandes vantagens das árvores de decisão é sua capacidade interpretativa pois o modelo resultante pode ser facilmente visualizado e compreendido até mesmo por especialistas não técnicos Essa característica é especialmente valiosa em domínios como o marketing a saúde e o setor financeiro onde a transparência na tomada de decisão é tão importante quanto a precisão dos modelos LAROCHELLE et al 2022 Ao empregar o algoritmo da árvore de decisão em contextos comerciais como na segmentação de clientes ou previsão de churn tornase viável estimar a probabilidade de um cliente adquirir ou abandonar um produto ou serviço com base em seu perfil sociodemográfico comportamental ou histórico de consumo A estrutura hierárquica da árvore facilita a identificação dos fatores mais relevantes para cada decisão fornecendo insights práticos e acionáveis para gestores e analistas MOLNAR 2022 Segundo Cumps et al 2009 técnicas de mineração de dados fundamentadas em árvores de decisão demonstram elevada eficiência na classificação de bases complexas e heterogêneas permitindo a inferência de regras claras e concisas diretamente a partir dos dados coletados Um exemplo recente da eficácia dessa abordagem é apresentado no estudo de Chen et al 2021 publicado no Journal of Marketing Analytics que utilizou árvores de decisão combinadas com análise fatorial para prever rotatividade de clientes em empresas de telecomunicações Os autores conseguiram identificar os principais drivers de 43 retenção de clientes como tempo de contrato volume de reclamações e pacotes promocionais com elevada acurácia e interpretabilidade Além disso o uso de algoritmos de árvore de decisão quando combinado com métodos de explicação como os valores SHAP SHapley Additive exPlanations conforme proposto por Lundberg et al 2020 pode aprimorar significativamente a capacidade de interpretação dos modelos elucidando o impacto individual de cada variável em cada predição Esse nível de explicabilidade é altamente valorizado em aplicações empresariais sobretudo em contextos regulados como o setor bancário Como ressalta Domingos 2015 embora árvores de decisão não sejam uma solução universal para todos os problemas sua robustez simplicidade e eficiência computacional as tornam ferramentas de primeira escolha em muitas aplicações do mundo real Figura 9 Exemplo esquemático de uma árvore de decisão simulando a classificação de clientes com base em perfil e comportamento Fonte Adaptado pelo autor 2025 2133 RF RANDOM FOREST A técnica Random Forest ou Floresta Aleatória é uma das abordagens mais robustas e eficazes do aprendizado de máquina supervisionado enquadrandose no paradigma de ensemble learning que consiste na combinação de múltiplos modelos preditivos com o objetivo de melhorar o desempenho geral da previsão Proposta por Leo Breiman em 2001 essa metodologia introduz uma estratégia engenhosa de agregação de diversas árvores de decisão modelos naturalmente instáveis e propensos ao sobreajuste a partir de uma dupla aleatorização tanto nas amostras de dados utilizadas para treinar cada árvore quanto nas variáveis consideradas na divisão dos nós durante o crescimento da árvore Esse processo de construção utiliza a técnica de bootstrap aggregating ou bagging onde cada árvore é treinada sobre uma amostra aleatória com reposição 43 44 dos dados originais Paralelamente em cada divisão interna da árvore apenas um subconjunto aleatório de variáveis é considerado o que promove diversidade entre as árvores e evita que todas aprendam os mesmos padrões Como resultado o modelo agregado é capaz de capturar uma gama muito mais ampla de estruturas e padrões nos dados A combinação das previsões individuais das árvores realizada por votação majoritária no caso de classificação ou média aritmética em regressão reduz significativamente a variância do modelo sem aumentar o viés proporcionando maior estabilidade e generalização Essa característica torna o Random Forest extremamente apropriado para lidar com problemas complexos especialmente em contextos onde os dados possuem alta dimensionalidade ruído colinearidade entre variáveis ou relações não lineares difíceis de modelar com métodos tradicionais Sua aplicabilidade abrange uma grande diversidade de domínios desde bioinformática onde é utilizado na análise de expressão gênica até finanças marketing diagnósticos médicos e análise preditiva de comportamento do consumidor No campo da saúde por exemplo a Random Forest tem sido aplicada com sucesso para prever doenças crônicas como diabetes hipertensão ou doenças cardíacas utilizando bases de dados compostas por variáveis clínicas como idade IMC níveis de colesterol histórico familiar e hábitos de vida A capacidade do modelo de detectar interações complexas entre atributos e a sua robustez diante de outliers e dados desbalanceados são diferenciais decisivos nesse tipo de aplicação onde decisões baseadas em dados podem impactar diretamente na qualidade do tratamento e na alocação de recursos hospitalares Outro ponto positivo relevante da Random Forest é sua capacidade de estimar a importância relativa das variáveis feature importance Essa funcionalidade oferece uma visão hierárquica dos atributos mais relevantes para as decisões do modelo contribuindo para a interpretabilidade dos resultados e facilitando a comunicação com públicos não técnicos Embora seja frequentemente caracterizado como uma técnica de caixa preta devido à complexidade da estrutura interna gerada pela floresta de árvores a análise de importância das variáveis e os métodos complementares como SHAP SHapley Additive exPlanations têm contribuído para a democratização do entendimento e da confiança em suas decisões mesmo em contextos sensíveis Do ponto de vista computacional a Random Forest apresenta boa escalabilidade e paralelismo sendo possível treinar múltiplas árvores de forma independente Isso permite sua aplicação em bases de dados extensas e em problemas de grande escala com eficiência e tempo de resposta aceitáveis Diante desse conjunto de atributos precisão preditiva robustez a ruído e variáveis irrelevantes flexibilidade e interpretação parcial a técnica Random Forest configurase como uma das ferramentas mais completas do repertório de ciência de dados contemporânea Sua inclusão neste trabalho visa não apenas oferecer uma comparação metodológica com técnicas como árvores de decisão isoladas e redes neurais mas também evidenciar sua eficácia na modelagem de 45 fenômenos multivariados especialmente em contextos empresariais voltados à previsão e segmentação de clientes 2134 RNA REDES NEURAIS ARTIFICIAIS As Redes Neurais Artificiais RNAs constituem uma classe de algoritmos de aprendizado de máquina inspirados no funcionamento do cérebro humano especialmente na forma como os neurônios biológicos transmitem sinais Em sua essência as RNAs são compostas por unidades computacionais interconectadas os chamados neurônios artificiais organizadas em camadas uma camada de entrada uma ou mais camadas ocultas e uma camada de saída Cada conexão entre os neurônios possui um peso ajustável que é modificado durante o processo de treinamento para minimizar o erro entre a saída prevista e o valor real O funcionamento básico das RNAs envolve a propagação da informação da entrada para a saída e em seguida a aplicação do algoritmo de retropropagação do erro backpropagation responsável por recalibrar os pesos sinápticos com base no gradiente do erro Esse mecanismo iterativo permite que a rede aprenda padrões complexos e realize tarefas como classificação regressão previsão e até mesmo geração de dados Conforme destacado por Rumelhart et al 1986 as redes neurais têm a capacidade de se adaptar a partir de exemplos aprendendo relações não explícitas nos dados por meio de treinamento supervisionado Essa capacidade de capturar relações não lineares e interações entre variáveis torna as RNAs particularmente adequadas para contextos de alta complexidade onde modelos estatísticos tradicionais apresentam limitações Um exemplo emblemático dessa superioridade é apresentado por Pollak 2021 que demonstrou o desempenho superior das redes neurais na previsão do valor do tempo de vida do cliente Customer Lifetime Value CLV especialmente em bases com forte heterogeneidade de comportamento Ao aprender representações latentes dos padrões históricos de consumo as RNAs conseguiram prever o CLV com maior precisão e menor erro absoluto médio quando comparadas a modelos baseados em regressão ou árvores de decisão Outro estudo marcante é o de Su et al 2023 publicado no Journal of Marketing Analytics que utilizou redes neurais combinadas com transformações wavelet e mecanismos de atenção para prever o CLV em ambientes de publicidade online As wavelets permitiram decompor os dados de séries temporais em componentes de diferentes frequências o que possibilitou capturar variações comportamentais em diferentes escalas de tempo Já os grafos de atenção atuaram no reconhecimento de padrões voláteis e esparsos aprendendo representações eficazes dos usuários e melhorando significativamente a robustez das previsões Tal abordagem destaca a flexibilidade das RNAs em lidar com dados temporais não estacionários e fragmentados características comuns em plataformas digitais Apesar de seu potencial expressivo as redes neurais frequentemente enfrentam críticas em relação à sua baixa interpretabilidade De fato por serem compostas por múltiplas camadas de transformações matemáticas complexas elas funcionam como verdadeiras caixaspretas dificultando a compreensão direta de como a decisão foi tomada Essa limitação motivou o desenvolvimento do campo da 45 46 XAI Explainable Artificial Intelligence que visa tornar os modelos de IA mais transparentes e compreensíveis para seres humanos Estudos como os de Adadi e Berrada 2018 e Arrieta et al 2020 apontam diversas técnicas para explicabilidade como LIME SHAP e visualizações de ativação de camadas internas que auxiliam analistas a identificar as características mais influentes em cada predição Além disso pesquisas como a de Xie et al 2019 validam a aplicação das RNAs em contextos práticos como a previsão de churn abandono de clientes utilizando dados transacionais e demográficos de clientes em tempo real Os resultados mostraram que as RNAs não apenas atingem altos níveis de acurácia mas também são capazes de identificar clientes em risco antes de eventos críticos permitindo ações proativas por parte das empresas Em síntese as Redes Neurais Artificiais constituem uma poderosa ferramenta de modelagem preditiva destacandose pela sua capacidade de generalizar padrões em grandes volumes de dados mesmo quando as relações entre variáveis são complexas não lineares ou desconhecidas No entanto essa sofisticação exige maior esforço computacional e soluções específicas para interpretação sobretudo quando a transparência é crucial para decisões sensíveis ou reguladas Ainda assim com o avanço das técnicas de interpretabilidade as RNAs continuam sendo protagonistas em aplicações de ciência de dados inteligência artificial e análise de comportamento do consumidor MOLNAR 2022 2135 AG ALGORITMOS GENÉTICOS Os Algoritmos Genéticos AGs representam uma das abordagens mais inovadoras dentro do campo da inteligência artificial e da ciência de dados especialmente no que se refere à resolução de problemas de otimização e busca em espaços complexos de soluções Inspirados nos mecanismos naturais de evolução biológica como a seleção natural o cruzamento genético e a mutação os AGs simulam de forma computacional o processo de sobrevivência dos mais aptos para encontrar iterativamente soluções de alto desempenho Esses algoritmos operam a partir de uma população inicial de soluções aleatórias codificadas geralmente em estruturas semelhantes a cadeias de DNA cromossomos A cada geração os indivíduos mais adaptados isto é as soluções com melhor desempenho segundo uma função de avaliação fitness são selecionados para reprodução gerando novas soluções por meio de operadores de cruzamento e mutação Ao longo de múltiplas iterações o algoritmo converge para soluções cada vez mais adequadas ao problema proposto mesmo em ambientes de alta complexidade e múltiplas variáveis No contexto de mineração de dados e aprendizado de máquina os algoritmos genéticos têm se mostrado ferramentas extremamente valiosas para a modelagem preditiva e a otimização de modelos Sua flexibilidade permite que sejam aplicados tanto na seleção de atributos relevantes quanto na definição de parâmetros ideais para outros algoritmos preditivos 47 Um exemplo notável é apresentado por Verbeke et al 2011 que exploram a aplicação da técnica AntMiner um algoritmo baseado em colônia de formigas Ant Colony Optimization ACO que incorpora conceitos dos AGs para desenvolver classificadores baseados em regras A grande vantagem dessa abordagem está na sua capacidade de gerar modelos preditivos que além de serem eficazes em termos de acurácia são também facilmente interpretáveis por usuários não técnicos um diferencial essencial em ambientes corporativos que demandam decisões justificáveis e transparentes como no caso da previsão de churn de clientes Em outro estudo Verhoeven et al 2023 demonstram como os AGs podem ser aplicados de forma eficaz na otimização da gestão de receitas particularmente em cenários que envolvem planejamento de recursos alocação de demanda e mix de produtos sob condições de incerteza Nessas situações os algoritmos genéticos destacamse por sua habilidade de explorar o espaço de busca de forma inteligente evitando soluções locais e encontrando configurações robustas que atendem simultaneamente a múltiplos objetivos e restrições O ciclo evolutivo promovido pelos AGs seleção cruzamento e mutação permite a adaptação contínua do modelo às particularidades do problema analisado o que os torna especialmente úteis em cenários de alta dimensionalidade ausência de soluções analíticas e relações não lineares entre variáveis Sua capacidade de incorporação de conhecimento prévio do domínio também contribui para a geração de modelos mais relevantes e aderentes à realidade prática A Figura abaixo ilustra de forma esquemática o funcionamento geral de um Algoritmo Genético desde a criação da população inicial até a convergência para uma solução otimizada Figura 10 Estrutura de Funcionamento de um Algoritmo Genético 47 48 Fonte Adaptado pelo autor 2025 Ao comparar os AGs com outras técnicas de aprendizado de máquina discutidas neste trabalho como Árvores de Decisão Random Forests e Redes Neurais Artificiais percebese que cada abordagem oferece vantagens distintas As Árvores de Decisão e a Random Forest são valorizadas por sua capacidade interpretativa e estabilidade preditiva as Redes Neurais se destacam pela flexibilidade e acurácia em dados complexos e volumosos e os Algoritmos Genéticos por sua vez sobressaemse em problemas de otimização multivariada onde a busca por uma configuração ótima é mais importante do que a simples classificação Dessa forma os AGs não competem com essas técnicas mas sim as complementam permitindo a construção de pipelines híbridos de modelagem e análise nos quais a robustez precisão e interpretabilidade são maximizadas Seu uso estratégico alinhado ao conhecimento do domínio e aos objetivos analíticos representa uma poderosa alternativa para transformar dados brutos em insights acionáveis em diversas áreas como marketing logística saúde e finanças 22 SEGMENTAÇÃO DE CLIENTES No contexto empresarial contemporâneo caracterizado por mercados cada vez mais competitivos dinâmicos e saturados as organizações enfrentam o desafio constante de fidelizar seus clientes manter uma base de consumidores engajada e simultaneamente otimizar processos de venda que se tornam cada vez mais complexos e personalizados Nesse cenário a segmentação de clientes emerge 49 assim como uma metodologia crucial e estratégica para refinar ações de marketing desenvolver campanhas direcionadas aprimorar a retenção de clientes e acima de tudo maximizar o valor do tempo de vida do cliente LTV Customer Lifetime Value que representa o retorno financeiro estimado que um cliente pode gerar ao longo de sua jornada com a empresa Para garantir a eficácia dessa abordagem é fundamental aplicar técnicas analíticas e estatísticas robustas como a avaliação da pureza e uniformidade dos segmentos criados a diferenciação clara entre os grupos a aplicação rigorosa de testes de hipóteses e ainda a análise de correlação entre os segmentos e variáveischave do negócio Esses elementos são considerados essenciais não apenas para validar os agrupamentos obtidos mas também para assegurar que eles gerem insights práticos e acionáveis para as decisões estratégicas da organização No desenvolvimento deste estudo diversos aspectos críticos e interdependentes da segmentação de clientes são abordados de forma sistemática Inicialmente a pureza e uniformidade dos segmentos são avaliadas com o objetivo de verificar a coesão interna dos grupos formados garantindo que os clientes dentro de cada segmento compartilhem características similares e comportamentos convergentes Em seguida a diferenciação entre segmentos é cuidadosamente explorada para assegurar que os grupos se distingam significativamente entre si de modo que possam ser utilizados de forma eficaz na personalização de ofertas comunicação e estratégias comerciais Os testes de hipóteses são empregados como ferramenta estatística para comparar os segmentos entre si e analisar características específicas dos clientes permitindo validar a significância das diferenças observadas com base em critérios objetivos e métricas confiáveis Adicionalmente a análise de correlação entre os segmentos e variáveis de negócio como ticket médio frequência de compra canal preferencial ou taxa de recompra auxilia na identificação de quais grupos contribuem de maneira mais relevante para o desempenho geral da empresa viabilizando ações focadas na maximização do retorno sobre investimento ROI Por fim conceitos fundamentais como o Custo de Aquisição de Cliente CAC e o próprio LTV são discutidos de maneira aprofundada a fim de proporcionar uma compreensão mais precisa sobre a rentabilidade viabilidade econômica e impacto financeiro que cada segmento representa para o negócio Essa análise integrada permite identificar oportunidades de crescimento sustentável ajustes nas estratégias de captação e retenção e um alinhamento mais eficaz entre os objetivos de marketing e os resultados financeiros da organização 221 PUREZA E UNIFORMIDADE DOS SEGMENTOS A pureza e a uniformidade são critérios cruciais utilizados para avaliar a consistência interna de segmentos ou grupos formados em um conjunto de dados A pureza mede a proporção de membros em um grupo que compartilham a mesma característicaalvo indicando a predominância de uma categoria específica dentro do segmento Esse indicador revela se os elementos do grupo pertencem em sua maioria a uma única classe como por exemplo um mesmo perfil de consumo ou faixa etária A uniformidade por sua vez analisa o quão homogêneas são as 49 50 características dentro do grupo como um todo demonstrando o grau de similaridade entre os membros em múltiplas dimensões o que fortalece a interpretação sobre a coesão do segmento em termos mais amplos A avaliação da pureza e uniformidade dos grupos é fundamental para analisar a coesão interna de um conjunto de clientes permitindo verificar se os agrupamentos obtidos realmente fazem sentido do ponto de vista analítico e estratégico Essas métricas são indicativos diretos da similaridade entre os membros de um grupo em termos das características observadas como preferências de compra frequência de interação localização geográfica ou comportamento online Quanto mais homogêneo for o grupo maior a chance de que estratégias direcionadas tenham sucesso uma vez que as necessidades dos clientes tendem a ser mais alinhadas Para mensurar os níveis de pureza e uniformidade ferramentas de programação como o Python podem ser utilizadas para implementar os cálculos necessários por meio de bibliotecas como scikitlearn numpy e pandas resultando em interpretações quantitativas que sustentam decisões práticas Nesse contexto diferentes cenários podem ser observados Alta Pureza Indica que a maioria dos membros do grupo compartilha a mesma característica dominante implicando em uma forte coesão interna e maior previsibilidade no comportamento dos clientes Isso favorece ações segmentadas mais eficazes Baixa Pureza Sinaliza que o grupo possui uma variedade de características distintas mostrando uma ligação interna fraca e elevada heterogeneidade Isso pode indicar necessidade de reagrupamento ou refinamento dos critérios de segmentação A uniformidade pode ser mensurada utilizando o conceito de Entropia oriundo da Teoria da Informação que expressa a quantidade de desordem ou incerteza em um conjunto de dados Na análise de grupos Baixa Entropia Aponta para uma grande uniformidade significando que os membros do grupo são altamente similares entre si e que há pouca variação interna Isso reforça a utilidade do grupo para estratégias específicas Alta Entropia Indica uma grande diversidade dentro do grupo sugerindo baixa uniformidade maior variabilidade e consequentemente menor aplicabilidade de ações padronizadas Na análise de segmentação um grupo é considerado puro quando a maioria de seus membros compartilham características similares resultando em uma coesão interna elevada e bem definida Grupos com alta pureza e baixa entropia são preferidos pois oferecem maior clareza para interpretação dos dados e permitem decisões mais direcionadas como ofertas personalizadas ou comunicações específicas Por exemplo no estudo realizado por Dahana et al 2019 a pureza e uniformidade dos grupos foram examinadas com base nas características de estilo 51 de vida e comportamento de compra dos clientes demonstrando que segmentos bem definidos podem melhorar significativamente a precisão das previsões do valor vitalício do cliente LTV ao facilitar a identificação de padrões de longo prazo Além disso em seu artigo Verbeke et al 2011 ressaltam a importância do uso de algoritmos genéticos como o AntMiner para garantir a coesão interna dos grupos promovendo agrupamentos orientados por regras claras e compreensíveis o que contribui para uma melhor interpretação e aplicação dos resultados pelos gestores de marketing e analistas de dados 222 DIFERENCIAÇÃO ENTRE SEGMENTO A distinção entre os grupos é fundamental para garantir que sejam exclusivos e abrangentes ao mesmo tempo Essa distinção clara assegura que cada grupo represente um perfil específico e não se sobreponha a outros o que facilita a alocação eficiente de recursos e a definição de mensagens e ações customizadas Uma clara separação entre os grupos facilita a criação de estratégias de marketing direcionadas tornandoas mais eficazes e eficientes já que permite identificar necessidades comportamentos e preferências de forma mais precisa Essa diferenciação torna possível a personalização de campanhas ofertas canais de comunicação e até mesmo o desenvolvimento de produtos específicos para determinados segmentos A diferenciação entre grupos pode ser medida por meio de diferentes métricas e métodos estatísticos que auxiliam na quantificação da distância variação e significância entre os agrupamentos Alguns deles são amplamente utilizados na literatura e na prática analítica Distância entre Centros dos Agrupamentos Centroides Análise de Variância ANOVA Teste de Hipóteses Testes T A distância entre centros dos agrupamentos Centroides é uma maneira direta e intuitiva de avaliar a diferenciação entre grupos calculando a distância euclidiana ou outras métricas como Manhattan ou Mahalanobis entre os centroides pontos médios dos agrupamentos Quanto maior for essa distância maior será a diferenciação entre os grupos em termos das variáveis consideradas na segmentação ou seja Alta Distância Sinaliza uma grande diferenciação entre os grupos sugerindo que os agrupamentos são bem separados no espaço de atributos e possuem características únicas o que favorece o uso prático dos segmentos Baixa Distância Indica uma baixa diferenciação mostrando que os agrupamentos são semelhantes e podem não representar grupos distintos de forma clara exigindo possivelmente revisão dos critérios de segmentação A Análise de Variância ANOVA é uma técnica estatística utilizada para comparar as médias de várias amostras ou grupos e verificar se pelo menos uma delas difere significativamente das outras Esse método é essencial para validar se 51 52 as diferenças observadas entre os grupos são estatisticamente significativas ou se podem ser atribuídas ao acaso Os principais resultados da ANOVA são Um Festatístico alto e um valorp baixo geralmente 005 indicam que pelo menos uma média de grupo difere significativamente das outras sugerindo distinção real entre os grupos Um Festatístico baixo e um valorp alto sugerem que não há evidências suficientes para afirmar que as médias são diferentes enfraquecendo a validade da segmentação Os testes de hipótese Testes T são utilizados para comparar as médias de dois grupos e verificar se são estatisticamente diferentes entre si Esses testes são úteis em análises parapar especialmente quando o número de grupos é pequeno Para comparações múltiplas a ANOVA é mais apropriada embora os testes T continuem úteis em análises pontuais As interpretações são similares Um Testatístico alto e um valorp baixo apontam que as médias dos dois grupos são significativamente diferentes Um Testatístico baixo e um valorp alto indicam que não há diferença estatisticamente significativa entre as médias dos grupos comparados De acordo com estudos de Dahana et al 2019 a diferenciação entre grupos foi feita com base em características comportamentais e psicográficas dos consumidores resultando em segmentos que apresentaram diferenças significativas em métricas como o valor vitalício do cliente LTV permitindo estratégias específicas e mais rentáveis para cada perfil Da mesma forma Cumps et al 2009 empregaram técnicas baseadas em algoritmos genéticos para estruturar grupos claramente distintos assegurando que cada agrupamento tivesse identidade própria e viabilizando a implementação de estratégias comerciais mais direcionadas eficazes e alinhadas aos objetivos do negócio 223 MATRIZ DE CONFUSÃO A matriz de confusão é uma ferramenta essencial e amplamente utilizada para avaliar o desempenho de modelos de classificação como os empregados para prever o Valor do Tempo de Vida do Cliente LTV ou a probabilidade de churn rotatividade Ela organiza em forma tabular os resultados das previsões feitas pelo modelo em relação aos valores reais conhecidos permitindo a identificação clara de acertos e erros cometidos pelo algoritmo Essa visualização facilita o diagnóstico de problemas como desbalanceamento de classes ou viés de previsão A matriz apresenta os seguintes elementos fundamentais Verdadeiros Positivos VP instâncias positivas corretamente classificadas como positivas Falsos Positivos FP instâncias negativas incorretamente classificadas como positivas Verdadeiros Negativos VN instâncias negativas corretamente classificadas como negativas 53 Falsos Negativos FN instâncias positivas incorretamente classificadas como negativas A partir de uma matriz de confusão diversas métricas de desempenho podem ser extraídas para fornecer uma análise detalhada da performance do classificador permitindo avaliar sua eficácia sob diferentes perspectivas As principais métricas incluem Acurácia A proporção total de previsões corretas VP VN sobre o total de amostras analisadas Representa uma visão geral do desempenho do modelo mas pode ser enganosa em casos de classes desbalanceadas Precisão ou Valor Preditivo Positivo Mede a proporção de verdadeiros positivos entre todos os casos classificados como positivos Indica o quão confiável é o modelo quando prevê uma classe positiva Recall ou SensibilidadeRevocação Mede a capacidade do modelo em identificar corretamente todas as instâncias positivas reais É especialmente importante em contextos onde a omissão de positivos é crítica como retenção de clientes com alto LTV F1Score Combina precisão e recall em uma única métrica calculando a média harmônica entre elas É útil quando há necessidade de balancear ambas as métricas especialmente em cenários com dados desbalanceados Especificidade Mede a capacidade do modelo de identificar corretamente as instâncias negativas ou seja quantos verdadeiros negativos foram corretamente detectados entre todos os casos realmente negativos Essas métricas são especialmente valiosas em contextos empresariais pois permitem entender o desempenho de modelos que classificam clientes com 53 54 diferentes potenciais de retorno LTV alto médio ou baixo bem como antecipar clientes propensos à evasão No estudo de Zhang et al 2022 a matriz de confusão foi empregada como ferramenta central para avaliar a precisão das previsões do LTV evidenciando a efetividade do método proposto na classificação correta dos clientes com maior potencial de receita Os autores demonstraram que o uso de métricas derivadas da matriz ajudou a aprimorar os modelos por meio de ajustes finos nos parâmetros e balanceamento entre classes Similarmente Verbeke et al 2011 também utilizam a matriz de confusão para avaliar a acurácia dos modelos preditivos especialmente na previsão da rotatividade de clientes churn ressaltando a importância dessa ferramenta na validação e no refinamento contínuo dos modelos de previsão A análise detalhada dos erros de classificação permitiu aos autores identificar padrões ocultos e ajustar algoritmos para melhorar a sensibilidade a classes minoritárias que são de alta relevância estratégica para o negócio 224 TESTES E HIPÓTESES Os testes de hipóteses são amplamente utilizados para comparar grupos e determinar se as diferenças observadas nas características dos clientes possuem significância estatística Essas análises permitem inferir com base em dados amostrais se as variações entre os grupos são reais ou se poderiam ter ocorrido por acaso contribuindo para decisões mais fundamentadas e confiáveis Ao aplicar testes de hipóteses no contexto de segmentação evitase a adoção de estratégias baseadas em padrões espúrios ou interpretações subjetivas promovendo maior rigor na análise dos dados Entre os testes mais comuns estão o teste t de Student para comparação entre dois grupos e a ANOVA para múltiplos grupos Ambos são úteis para comparar médias de variáveis como frequência de compra valor médio gasto ou engajamento digital A interpretação dos resultados é feita com base no valorp que representa a probabilidade de se observar uma diferença tão extrema quanto a verificada caso a hipótese nula de que não há diferença seja verdadeira Assim Um valorp baixo geralmente menor que 005 leva à rejeição da hipótese nula indicando que a diferença observada é estatisticamente significativa Um valorp alto sugere que não há evidência suficiente para afirmar que os grupos diferem significativamente No estudo conduzido por Zhang et al 2022 foram empregados testes de hipóteses para comparar diferentes grupos de clientes com base em atributos demográficos e comportamentais A análise estatística confirmou que as variações entre os grupos não eram aleatórias validando a importância dessas diferenças para a segmentação e consequentemente para a definição de estratégias de marketing mais direcionadas e personalizadas O uso criterioso de testes permitiu identificar quais variáveis mais influenciam o valor do tempo de vida do cliente LTV 55 e como diferentes perfis se comportam ao longo do ciclo de relacionamento com a empresa Adicionalmente Verhoeven et al 2023 empregaram essas análises em um contexto voltado à gestão de receitas avaliando a eficácia de diversas estratégias aplicadas a grupos distintos de clientes Os testes de hipóteses foram essenciais para verificar quais abordagens apresentaram diferenças significativas nos resultados obtidos evidenciando a utilidade desses testes na validação empírica das práticas adotadas na segmentação e no planejamento de campanhas personalizadas Os resultados reforçaram que estratégias baseadas em análises estatisticamente embasadas tendem a apresentar maior retorno e previsibilidade o que é vital para a tomada de decisões em ambientes competitivos 225 ANÁLISE DE CORRELAÇÃO ENTRE SEGMENTOS E VARIÁVEIS DE NEGÓCIOS A análise de correlação investiga as relações estatísticas entre os grupos de clientes e indicadores empresariais relevantes como receita frequência de compras ticket médio taxa de recompra e especialmente o Valor do Tempo de Vida do Cliente LTV Esse tipo de análise é fundamental para identificar quais segmentos contribuem mais significativamente para o desempenho do negócio possibilitando uma visão estratégica baseada em dados e não apenas em suposições A correlação é geralmente quantificada por coeficientes como o coeficiente de correlação de Pearson que mede a força e direção de uma relação linear entre duas variáveis Valores próximos de 1 indicam correlação positiva forte valores próximos de 1 indicam correlação negativa forte e valores próximos de 0 indicam ausência de relação linear significativa Essa métrica é essencial para avaliar o impacto potencial de diferentes segmentos nas variáveis de negócio guiando decisões como alocação de orçamento personalização de ofertas e definição de prioridades comerciais No estudo realizado por Zhang et al 2022 uma análise correlacional foi conduzida com o intuito de examinar a relação entre os grupos de clientes e o LTV revelando que determinados grupos apresentavam uma correlação mais expressiva com altos valores de LTV Isso permitiu à equipe identificar quais perfis de clientes mereciam maior atenção em termos de retenção e investimento em marketing reforçando a importância de priorizar segmentos com maior potencial de retorno financeiro A importância da análise de correlação na identificação de padrões e na compreensão do impacto dos diferentes segmentos nas variáveis de negócios é amplamente reconhecida na literatura de marketing e gestão Segundo Malhotra 2018 essa ferramenta estatística oferece aos gestores uma visão analítica sobre como as características dos segmentos de mercado se relacionam com indicadores de desempenho auxiliando na tomada de decisões estratégicas baseadas em evidências concretas Ao permitir a identificação de relações ocultas entre os perfis de clientes e os resultados da empresa a análise de correlação apoia o direcionamento mais preciso 55 56 de recursos e esforços para os grupos de clientes mais rentáveis engajados ou promissores Com isso as organizações conseguem otimizar campanhas melhorar a alocação de orçamento e aprimorar a performance de vendas marketing e atendimento garantindo que as decisões estejam alinhadas com o comportamento real do mercado 226 INTERPRETAÇÃO DOS RESULTADOS E INDICADORES A interpretação dos resultados constitui uma etapa crítica dentro do ciclo de desenvolvimento de modelos analíticos e preditivos especialmente no contexto da segmentação de clientes e previsão de métricas de valor como o Lifetime Value LTV Tratase da fase em que os resultados quantitativos obtidos ao longo do processo de modelagem são transformados em informações qualitativas compreensíveis e aplicáveis ao contexto organizacional com o objetivo de embasar decisões estratégicas fundamentadas em dados A eficácia de um modelo é comumente avaliada por meio de indicadores de desempenho como acurácia precisão recall e F1score os quais oferecem diferentes perspectivas sobre a qualidade das previsões A seleção e interpretação adequadas desses indicadores são essenciais para entender não apenas se o modelo funciona mas como e em que situações ele apresenta melhores desempenhos A acurácia por exemplo mede a proporção de previsões corretas entre todas as realizadas sendo uma métrica intuitiva e útil em contextos em que as classes estão balanceadas No entanto em situações com desbalanceamento de classes essa métrica pode mascarar o desempenho real do modelo A precisão indica a proporção de verdadeiros positivos entre todas as predições positivas feitas pelo modelo sendo especialmente relevante em cenários em que falsos positivos devem ser minimizados como em campanhas de retenção de clientes O recall ou sensibilidade mede a capacidade do modelo de identificar corretamente todos os casos positivos o que é crucial quando o custo de perder instâncias positivas como clientes de alto valor que estão prestes a churnar é elevado A pontuação F1 combina precisão e recall em uma média harmônica balanceando ambas as métricas em um único valor Essa medida é particularmente valiosa em contextos de classes desbalanceadas como frequentemente ocorre em análises de churn detecção de fraudes ou segmentações com grupos de baixa representatividade No estudo de Dahana et al 2019 por exemplo a interpretação dos resultados foi conduzida com base em uma análise integrada desses indicadores Os autores demonstraram que os modelos aplicados à segmentação de clientes e à estimativa do LTV apresentaram níveis elevados de F1score e recall evidenciando 57 sua robustez e confiabilidade especialmente no que diz respeito à capacidade de identificar clientes de alto valor potencial Essa abordagem reforça a importância de considerar múltiplas métricas para compreender os pontos fortes e limitações do modelo de maneira abrangente Além da análise técnica dos resultados a compreensão contextual dos achados é essencial para garantir que os insights gerados tenham aplicabilidade prática no ambiente de negócios Verbeke et al 2011 argumentam que a simples obtenção de métricas estatisticamente satisfatórias não garante a utilidade dos modelos sendo fundamental realizar uma interpretação aprofundada e orientada ao negócio Isso inclui compreender como os segmentos identificados se relacionam com as estratégias comerciais da empresa quais variáveis influenciam significativamente o comportamento dos clientes e quais ações podem ser derivadas diretamente das previsões realizadas como campanhas direcionadas melhorias no atendimento ou políticas de fidelização Dessa forma a etapa de interpretação atua como um elo entre a modelagem analítica e a ação gerencial transformando resultados técnicos em conhecimento aplicado que contribui efetivamente para a melhoria dos processos decisórios e para a maximização do valor gerado pela análise de dados 227 CAC e LTV O Valor do Tempo de Vida do Cliente LTV Customer Lifetime Value é uma métrica fundamental no contexto do marketing orientado por dados e da inteligência analítica Ele se refere ao total dos benefícios econômicos que uma empresa espera obter de todas as interações com um cliente ao longo de todo o seu ciclo de relacionamento com a marca Em outras palavras o LTV quantifica o valor financeiro futuro que um cliente representa para a organização considerando suas compras recorrentes fidelidade engajamento e possíveis indicações Essa definição é amplamente corroborada por diversos estudos recentes como os de Pollak 2021 Zhang et al 2022 Li et al 2022 Afiniti 2022 e Su et al 2023 os quais reforçam sua relevância como métrica estratégica para a sustentação e crescimento dos negócios em ambientes competitivos Nesse contexto a crescente complexidade do mercado aliada à constante evolução econômica e às rápidas transformações no comportamento dos consumidores tem acentuado a importância de as empresas construírem e manterem relacionamentos de longo prazo com seus clientes A fidelização deixou de ser apenas uma vantagem competitiva para se tornar um requisito essencial à sobrevivência e rentabilidade em setores dinâmicos Com isso a base para decisões operacionais e estratégicas passou a incluir o LTV como uma variável central uma vez que ele reflete o valor de longo prazo que cada cliente representa para o negócio indo além do lucro imediato de uma transação isolada Na prática empresas que compreendem o LTV conseguem segmentar seus clientes de forma mais inteligente personalizar ações de marketing com maior precisão e priorizar investimentos em públicos com maior retorno potencial Isso proporciona uma alocação mais eficiente de recursos aumento da rentabilidade por cliente e melhorias nas taxas de retenção Além disso o LTV permite avaliar o 57 58 retorno sobre o investimento ROI de campanhas de aquisição e relacionamento sustentando decisões mais precisas sobre quanto vale a pena investir para conquistar ou manter um determinado perfil de cliente Para uma gestão comercial e de inteligência de mercado eficaz o conhecimento aprofundado do LTV e do Custo de Aquisição de Cliente CAC é indispensável A análise conjunta dessas duas métricas possibilita a formulação de indicadoreschave de eficiência como a razão LTVCAC frequentemente utilizada para avaliar a sustentabilidade financeira das estratégias de crescimento Um valor de LTV consistentemente superior ao CAC indica que a empresa está gerando valor real com seus clientes ao longo do tempo enquanto o oposto sugere que a estratégia de aquisição pode estar consumindo mais recursos do que é viável Além disso a análise integrada do LTV com a segmentação de clientes permite não apenas a construção de proposições e conclusões robustas sobre o comportamento e valor dos diferentes perfis mas também a orientação da estratégia comercial e de relacionamento para a lucratividade otimizando o impacto financeiro de cada decisão Essa abordagem favorece o desenvolvimento de modelos preditivos e classificatórios que ajudam a identificar clientes de alto potencial ajustar canais de comunicação definir políticas de descontos e melhorar a eficiência de equipes comerciais e de marketing 2271 CAC CUSTOMER ACQUISITION COST O Custo de Aquisição de Clientes CAC é um indicadorchave que mede os gastos totais com marketing e vendas realizados com o objetivo de conquistar novos clientes Tratase portanto de uma estimativa do investimento médio necessário para converter um lead em cliente ativo incluindo ações diretas e indiretas que influenciam o processo de decisão do consumidor Como destacado por Wu et al 2023 o CAC tem papel central nas análises de desempenho comercial e sustentabilidade financeira de empresas orientadas por dados Na concepção de Burelli 2019 a maioria das empresas aloca uma parte significativa de sua receita nas áreas de marketing e vendas com a expectativa de retorno na forma de expansão de base de clientes e aumento de receita Nesse sentido é crucial que as organizações realizem uma análise detalhada sobre o montante investido em canais específicos como mídia paga inbound marketing feiras equipes comerciais entre outros e o número de clientes efetivamente captados por meio de cada um deles Essa análise é fundamental para identificar os canais mais eficientes e lucrativos otimizando os esforços comerciais e maximizando o retorno sobre investimento como também é ressaltado por Pollak 2021 Em conformidade com essa perspectiva Afiniti 2022 destaca que a aquisição de um novo cliente frequentemente requer um investimento inicial elevado que não se limita à comunicação e publicidade do produto ou serviço mas também envolve custos operacionais com equipes de vendas ferramentas de CRM estrutura de atendimento e treinamentos Esse esforço financeiro visa estruturar e escalar o negócio especialmente em mercados altamente competitivos ou em fases de 59 expansão acelerada Como resultado a aquisição de clientes pode representar uma das maiores despesas operacionais de uma organização podendo em cenários extremos ultrapassar 50 do faturamento bruto especialmente em startups ou empresas em estágio inicial Dada a materialidade do investimento em aquisição o acompanhamento rigoroso e contínuo do CAC tornase essencial para uma gestão orientada por indicadores Este KPI permite que líderes de vendas analistas de marketing e executivos de alto escalão como CEOs e CFOs tenham uma visão clara do crescimento atual do negócio e da viabilidade econômica desse crescimento no médio e longo prazo Ele ainda possibilita identificar gargalos desperdícios e oportunidades de melhoria nos processos comerciais e de comunicação Nessa perspectiva o cálculo do CAC pode ser representado pela seguinte fórmula CACCmv Nc Onde CAC é o Custo de Aquisição de Cliente Cmv é o custo total de marketing e vendas para a aquisição de clientes investimentos Nc é o número de novos clientes adquiridos Essa fórmula embora de aplicação conceitualmente simples exige cuidado na obtenção dos dados O desafio prático recai sobre a atribuição precisa dos investimentos aos canais corretos bem como a correta contabilização dos clientes originados em função desses gastos especialmente em contextos com múltiplos pontos de contato vendas indiretas ou ciclos longos de conversão É fundamental ressaltar que o CAC não inclui custos fixos de produção ou despesas administrativas tampouco investimentos em pesquisa e desenvolvimento suporte técnico jurídico ou financeiro Ele deve incluir exclusivamente os custos relacionados às áreas de vendas e marketing tais como salários de equipes comerciais mídia paga comissões plataformas de automação eventos e até mesmo custos incorridos com leads que não converteram em clientes já que fazem parte do custo médio de aquisição Assim para a sustentabilidade de um modelo de negócios o custo de aquisição de clientes não pode ser superior ao valor que esse cliente gera para a organização ao longo de seu relacionamento o Lifetime Value LTV Como enfatizado por Li et al 2022 a relação LTVCAC deve idealmente ser superior a 31 indicando que o valor gerado por um cliente supera amplamente o custo de aquisição garantindo rentabilidade e escalabilidade ao modelo comercial 59 60 2272 LTV LIFETIME VALUE O Lifetime Value LTV de um cliente conforme já abordado anteriormente seção 228 referese ao valor financeiro total que um cliente gera para a empresa ao longo de todo o seu relacionamento comercial com a marca Essa métrica é uma das mais relevantes dentro da lógica de marketing orientado a dados pois permite estimar o retorno esperado por cliente com base em projeções realistas do seu comportamento de compra ao longo do tempo Segundo Olnén 2022 o LTV pode ser entendido não apenas como uma estimativa de receita mas sim como o lucro médio líquido que o cliente proporciona durante o período analisado já descontados todos os custos associados ao seu ciclo de vida incluindo custos de aquisição retenção suporte e operação Essa abordagem contribui para uma visão mais precisa da rentabilidade de cada cliente permitindo decisões mais estratégicas sobre retenção segmentação e alocação de recursos de marketing Na prática o LTV pode ser definido como a receita líquida total esperada que a empresa obtém de um cliente individual durante todo o período em que este se mantém ativo descontados os custos variáveis incorridos para atender às suas demandas É portanto uma métrica preditiva que exige o uso de técnicas analíticas e projeções estatísticas mas que fornece insights valiosos para a sustentabilidade do modelo de negócio De acordo com a abordagem proposta por Zhang et al 2022 o cálculo do LTV deve considerar essencialmente três componentes principais a margem de contribuição a taxa de retenção e a taxa de desconto 1 Margem de Contribuição Rt Ct Representa a diferença entre a receita gerada pelo cliente em um determinado período t e os custos diretos associados ao seu atendimento como suporte entrega manutenção e comissão de vendas Essa margem reflete o valor real gerado em cada interação 2 Taxa de Retenção r Referese ao percentual de clientes que continuam ativos de um período para o outro Uma taxa de retenção elevada indica que o cliente tende a permanecer consumindo por mais tempo ampliando seu LTV Taxa de Desconto d Representa o custo de capital da empresa ou a taxa de retorno exigida para trazer os fluxos de caixa futuros a valor presente Isso permite considerar o valor do dinheiro no tempo ajustando o LTV para o contexto financeiro atual da organização A seguir na Figura 2 é apresentada a fórmula de valor presente líquido VPL adaptada para o cálculo do LTV LTV t1 n RtCt 1d t 61 endo LTV é o Valor Vitalício do Cliente Rt é a receita gerada pelo cliente no período t Ct são os custos totais associados ao cliente no período t incluindo custos de aquisição atendimento manutenção e outros custos operacionais d é a taxa de desconto que reflete o valor do dinheiro ao longo do tempo t é o período específico e n é o número total de períodos considerados no ciclo de vida do cliente Essa fórmula permite calcular o valor atual de todos os lucros futuros esperados do cliente incorporando as variáveis financeiras que afetam a sustentabilidade e o retorno do relacionamento Quanto maior o LTV maior o potencial estratégico do cliente justificando investimentos mais robustos em retenção personalização e fidelização Por fim é importante destacar que o LTV deve ser interpretado em conjunto com o CAC Custo de Aquisição de Clientes A relação LTVCAC é amplamente utilizada como indicador de eficiência sendo ideal que esse valor seja maior que 31 ou seja que o valor gerado pelo cliente seja ao menos três vezes superior ao custo necessário para adquirilo Esse equilíbrio é essencial para garantir crescimento escalável e sustentável da empresa 2273 LTV LIFETIME VALUE O Lifetime Value LTV de um cliente conforme já abordado anteriormente seção 228 referese ao valor financeiro total que um cliente gera para a empresa ao longo de todo o seu relacionamento com a marca Essa métrica projeta com base em dados históricos e estimativas futuras o montante líquido que a organização pode esperar obter de um cliente individual até o término do vínculo comercial Olnén 2022 complementa essa definição ao destacar que o LTV representa o lucro médio gerado pelo cliente no período analisado já considerando os custos variáveis associados ao seu ciclo de vida como atendimento suporte marketing de retenção e operação logística Isso reforça a importância de tratar o LTV não apenas como um indicativo de receita mas como uma medida direta de rentabilidade por cliente 61 62 De forma mais precisa o LTV pode ser definido como a receita líquida total esperada pela empresa ao longo de todo o tempo em que o cliente se mantiver ativo ou seja subtraídos os custos diretamente atribuíveis ao atendimento de suas necessidades Dessa maneira ele permite avaliar a viabilidade econômica de estratégias de aquisição fidelização e desenvolvimento de relacionamento com diferentes segmentos de clientes Segundo a abordagem proposta por Zhang et al 2022 o cálculo do LTV deve considerar essencialmente três fatores fundamentais 1 Margem de Contribuição corresponde à receita anual gerada pelo cliente descontadas as despesas operacionais diretas envolvidas em seu atendimento Reflete o lucro líquido obtido com o cliente em cada período 2 Taxa de Retenção Retention Rate representa o percentual de clientes que permanecem ativos de um período para o outro sendo crucial para estimar a duração média do relacionamento e por consequência o valor total gerado 3 Taxa de Desconto expressa o custo de capital da empresa ou o valor do dinheiro no tempo É aplicada para converter os fluxos de caixa futuros gerados pelo cliente em valor presente permitindo uma avaliação realista da rentabilidade futura Além da estimativa do valor monetário o tempo de vida do cliente Lifetime ou LTR Lifetime Retention também é uma variável importante A seguir é apresentada a fórmula para o cálculo do Lifespan L baseado na churn rate LTRL 1 C Onde L é o tempo de vida útil esperado do cliente em períodos como anos ou meses C é a Churn Rate ou taxa de evasão dos clientes no período A fórmula da taxa de churn é CP I Em que P representa o número de clientes perdidos no período I é o número de clientes ativos no início do período Substituindo essa expressão na fórmula do Lifespan temos 63 LTRL I P I Ou seja a fórmula final simplificada tornase LTRL I P Esse cálculo fornece uma estimativa direta da longevidade média dos clientes com base na proporção entre os clientes retidos e os perdidos Quanto menor a taxa de churn maior o tempo de vida do cliente refletindo um relacionamento mais estável e duradouro com maior potencial de geração de receita A partir da compreensão dessas fórmulas e dos conceitos de LTV e LTR verificase que o cálculo dessas métricas é fundamental para entender a viabilidade do negócio sua capacidade de gerar valor sustentável e sua eficiência na alocação de recursos em marketing e vendas Elas permitem antecipar retornos definir prioridades e orientar decisões estratégicas baseadas em dados Entretanto é importante ressaltar que nenhuma métrica quando analisada isoladamente é capaz de oferecer uma compreensão completa do cenário de negócios A análise conjunta do LTV do LTR e do CAC Custo de Aquisição de Clientes proporciona uma visão mais holística e acionável permitindo avaliar o equilíbrio entre aquisição retenção e rentabilidade Somente com essa perspectiva integrada é possível garantir a sustentabilidade e o crescimento saudável da base de clientes ao longo do tempo 23 SEGMENTAÇÃO DE CLIENTES B2B A segmentação de clientes no ambiente B2B BusinesstoBusiness constitui uma prática estratégica fundamental para organizações que almejam direcionar de forma mais eficaz seus recursos de marketing vendas e atendimento sobretudo em mercados de alta competitividade e com estruturas complexas de decisão Diferentemente do contexto B2C BusinesstoConsumer onde a segmentação costuma se basear em critérios demográficos psicográficos e comportamentais de consumidores individuais o B2B apresenta desafios adicionais exigindo abordagens multidimensionais e profundamente analíticas Essas abordagens precisam considerar entre outros fatores o potencial de lucratividade de cada cliente empresarial a previsibilidade do relacionamento a longo prazo o grau de alinhamento estratégico entre as soluções ofertadas e as necessidades do cliente 63 64 e indicadores quantitativos fundamentais como o Lifetime Value LTV e o Custo de Aquisição de Clientes CAC que oferecem uma visão financeira do relacionamento KOTLER KELLER 2016 A análise segmentada da base de clientes quando orientada por dados e fundamentada em modelos analíticos preditivos ou classificatórios permite identificar perfis empresariais com maior propensão a gerar retorno financeiro contínuo Essa abordagem baseada em dados favorece decisões como a priorização de esforços comerciais em contas de alto valor a personalização de ofertas de produtos preços ou serviços conforme as demandas do segmento e a reavaliação da alocação orçamentária em canais de marketing prospecção e suporte de modo a otimizar o uso dos recursos disponíveis O ambiente B2B é marcado por características específicas que aumentam sua complexidade ciclos de venda mais longos e imprevisíveis envolvimento de múltiplos tomadores de decisão ex áreas técnica financeira e jurídica negociações altamente personalizadas e por vezes consultivas contratos de valor elevado e prazos longos menor volume de transações mas com maior impacto unitário na receita Diante desse cenário adotar uma estratégia de segmentação robusta e baseada em valor não é apenas recomendável mas imperativo para o sucesso organizacional e a sustentabilidade das ações comerciais no médio e longo prazo De acordo com Kumar 2018 empresas que adotam práticas de segmentação baseadas no valor do cliente apresentam resultados superiores em rentabilidade e fidelização além de reduzirem significativamente os custos com aquisição e retenção reflexo direto da maior assertividade nas ações Ademais a segmentação possibilita a personalização das comunicações produtos serviços e propostas de valor adaptandoos às necessidades dores e objetivos específicos de cada grupo ou vertical de clientes Essa customização orientada por dados não apenas melhora a experiência do cliente Customer Experience CX como também impulsiona os índices de retenção e reduz a taxa de evasão churn Pollak 2021 demonstra que a eficácia de ações de marketing personalizadas pode ser ampliada em até 30 quando são apoiadas por modelos de segmentação baseados em dados históricos e comportamento preditivo destacando o papel da inteligência comercial na formulação de estratégias centradas no cliente Assim a segmentação no B2B transcende o papel de agrupamento estático de contas e se posiciona como uma ferramenta dinâmica de gestão estratégica capaz de transformar dados em conhecimento e conhecimento em vantagem competitiva sustentável 65 231 CRITÉRIOS RELEVANTES PARA SEGMENTAÇÃO B2B A literatura especializada identifica uma gama de critérios que podem ser utilizados no processo de segmentação B2B A escolha desses critérios depende em grande parte dos objetivos do negócio do tipo de produto ou serviço oferecido e do nível de maturidade analítica da empresa Os critérios podem ser agrupados em três grandes categorias financeiros comportamentais e estratégicos 2311 CRITÉRIOS FINANCEIROS A literatura especializada identifica uma gama abrangente de critérios que podem ser utilizados no processo de segmentação de clientes no contexto B2B BusinesstoBusiness A escolha desses critérios depende em grande parte dos objetivos estratégicos do negócio do tipo de produto ou serviço oferecido da dinâmica do mercado de atuação e do nível de maturidade analítica e tecnológica da empresa À medida que as organizações avançam em seus processos de transformação digital e coleta de dados tornase possível aplicar segmentações mais refinadas e orientadas por insights Esses critérios podem ser agrupados de forma geral em três grandes categorias 1 Critérios Financeiros Consideram variáveis quantitativas que indicam a rentabilidade risco e potencial econômico do cliente Exemplos incluem Faturamento anual da empresacliente Ticket médio das compras realizadas Custo de Aquisição de Cliente CAC Lifetime Value LTV Margem de contribuição Volume de compras recorrentes Esses indicadores permitem priorizar contas com maior retorno financeiro esperado e avaliar a viabilidade econômica de estratégias específicas para cada grupo 2 Critérios Comportamentais Avaliam como o cliente interage com a empresa seus hábitos de compra frequência de relacionamento e respostas a campanhas comerciais ou de marketing Incluem Histórico de interações com canais de vendas online ou presencial Participação em programas de fidelidade ou eventos corporativos Nível de engajamento com conteúdos digitais emails webinars e books Tempo médio entre as compras buying cycle Velocidade de resposta em negociações 65 66 Esses dados ajudam a identificar o nível de maturidade da conta seu potencial de crescimento e o tipo de abordagem comercial mais eficaz 3 Critérios Estratégicos Envolvem a adequação do cliente ao posicionamento da empresa e seu alinhamento com a proposta de valor visão de futuro ou até objetivos ESG Ambiental Social e Governança Exemplos Setor de atuação ex saúde varejo manufatura Modelo de negócio B2B B2C B2B2C etc Grau de sinergia tecnológica ou operacional com o portfólio atual Localização geográfica e potencial de expansão regional Potencial de parceria estratégica ou codesenvolvimento de soluções Esses critérios são fundamentais para selecionar contaschave key accounts definir nichos prioritários ou estruturar abordagens de vendas complexas como o AccountBased Marketing ABM A correta combinação entre essas dimensões permite que a segmentação B2B vá além da classificação superficial dos clientes promovendo uma visão mais holística e orientada a resultados Empresas que integram esses critérios de maneira sistemática conseguem priorizar oportunidades de maior valor otimizar a alocação de recursos comerciais e personalizar suas estratégias de relacionamento com maior precisão 2312CRITÉRIOS COMPORTAMENTAIS Os critérios comportamentais analisam o histórico de interação entre a empresa e seus clientes oferecendo insumos valiosos para a personalização de estratégias de marketing vendas e atendimento Ao contrário dos critérios puramente financeiros que focam na rentabilidade passada ou projetada os critérios comportamentais permitem avaliar o grau de engajamento maturidade e responsividade do cliente ao longo do tempo fornecendo uma visão mais rica sobre o relacionamento estabelecido com a organização Entre os principais exemplos de critérios comportamentais aplicáveis à segmentação B2B destacamse Frequência de compras e recorrência de pedidos identifica padrões de consumo regulares ou sazonais úteis para prever demandas e antecipar ofertas Tempo médio de relacionamento com a empresa mede a longevidade da parceria comercial o que pode estar correlacionado a confiança retenção e potencial de upselling Engajamento com canais de comunicação e suporte técnico avalia o envolvimento do cliente com emails chamadas reuniões abertura de chamados e uso de portais de autoatendimento Respostas a campanhas de marketing anteriores inclui taxas de abertura de emails cliques em links participação em eventos e conversões registradas em campanhas específicas DAHANA et al 2019 67 Esses dados são em geral extraídos de ferramentas integradas de gestão de relacionamento com o cliente CRM como Salesforce HubSpot ou Microsoft Dynamics bem como de plataformas de automação de marketing ex RD Station Mailchimp ActiveCampaign A análise conjunta dessas informações permite construir perfis de comportamento longitudinal com destaque para mudanças no padrão de consumo queda no engajamento ou sinais de churn iminente possibilitando ações preventivas Além disso esses critérios comportamentais conferem dinamismo à segmentação pois possibilitam que os segmentos evoluam com o tempo um conceito alinhado à segmentação preditiva e aos princípios de Customer Success Quando aplicados de forma consistente eles permitem à empresa desenvolver estratégias mais precisas e oportunas como campanhas de reativação de clientes inativos ofertas específicas baseadas em comportamento recente e até mesmo fluxos automatizados de nutrição e fidelização 2313 CRITÉRIOS ESTRATÉGICOS Os critérios estratégicos avaliam o potencial de um cliente para contribuir com o crescimento futuro da empresa fornecedora indo além da rentabilidade imediata e considerando aspectos como sinergia de longo prazo valor estratégico da parceria e possibilidade de coevolução comercial Diferenciamse dos critérios financeiros e comportamentais por enfatizarem a perspectiva de alinhamento estrutural e estratégico entre as partes especialmente relevante no contexto B2B onde as relações tendem a ser mais duradouras e complexas São exemplos típicos desses critérios Potencial de expansão da conta upsellcrosssell referese à capacidade de aumentar o volume de negócios com o cliente ao oferecer produtos complementares crosssell ou upgrades de soluções upsell ampliando o valor da conta ao longo do tempo Aderência aos produtos ou serviços ofertados mede o grau de compatibilidade entre as soluções da empresa fornecedora e as necessidades atuais e futuras da empresa cliente Sinergia cultural e estratégica entre as empresas considera afinidades em termos de valores corporativos estilo de gestão visão de futuro e práticas comerciais fatores que facilitam a construção de parcerias sólidas e duradouras Posicionamento da empresa cliente dentro de seu próprio mercado avalia se o cliente é líder referência ou inovador em seu segmento o que pode gerar efeitos indiretos positivos como credibilidade visibilidade e influência no setor KANCHANAPOOM CHONGWATPOL 2022 Esses critérios embora mais qualitativos por natureza podem e devem ser operacionalizados de forma sistemática a partir de escalas de avaliação interna checklists padronizados entrevistas com executivos da área comercial e painéis de 67 68 validação entre áreas técnicas e estratégicas Empresas mais maduras podem empregar métodos como análise multicritério AHPMCDA ou modelos de scoring ponderado para atribuir pesos a esses critérios e classificálos de forma consistente em sistemas de CRM ou plataformas de account planning Além disso os critérios estratégicos são frequentemente utilizados na definição de Key Accounts contaschave ABM AccountBased Marketing e planejamentos de parcerias estratégicas por permitirem identificar clientes que mesmo não sendo os mais rentáveis no curto prazo oferecem elevado potencial de valor estratégico e institucional para a empresa fornecedora seja pelo potencial de coinovação pela abertura de novos mercados ou pela influência que exercem no setor 232 TÉCNICAS QUANTITATIVAS PARA SEGMENTAÇÃO B2B Com a digitalização dos processos empresariais e o crescimento exponencial do volume e da variedade de dados disponíveis surgiram metodologias mais robustas escaláveis e automatizadas para a segmentação de clientes A incorporação de técnicas de ciência de dados e em especial de machine learning revolucionou a forma como as empresas identificam e compreendem seus públicos alvo permitindo o agrupamento de clientes com base em padrões ocultos que muitas vezes não são perceptíveis por métodos tradicionais ou análises univariadas Clusterização Técnicas de clusterização ou agrupamento não supervisionado são amplamente utilizadas na criação de segmentos homogêneos de clientes com base em similaridades de comportamento características transacionais ou atributos demográficos Entre os algoritmos mais populares destacamse Kmeans eficaz na formação de clusters com base na distância euclidiana entre variáveis previamente normalizadas sendo especialmente útil em bases de dados estruturadas com grande volume de observações Sua simplicidade e velocidade de execução o tornam adequado para aplicações em tempo real e dashboards interativos HAN KAMBER PEI 2011 DBSCAN DensityBased Spatial Clustering of Applications with Noise permite identificar clusters de forma flexível com base na densidade de pontos sendo eficaz na detecção de outliers e em situações em que os clusters não têm formato esférico Hierarchical Clustering constrói uma árvore de agrupamentos dendrograma útil para análises exploratórias especialmente quando o número ideal de clusters não é conhecido previamente Modelos Supervisionados Modelos de aprendizado supervisionado são indicados quando o objetivo é prever variáveis de interesse como LTV Lifetime Value churn evasão ou 69 propensão de compra Estes modelos aprendem com dados rotulados históricos e produzem classificações ou regressões com base em novos dados Destacamse Random Forest modelo baseado em árvores de decisão altamente robusto e interpretável adequado para previsão de churn e pontuação de clientes por risco Gradient Boosting Machines GBM XGBoost LightGBM técnicas poderosas que combinam vários modelos fracos para formar um preditor forte com excelente desempenho preditivo Redes Neurais Artificiais RNA recomendadas quando há uma alta complexidade nãolinear entre as variáveis sendo capazes de capturar padrões sofisticados especialmente em grandes bases Estudos como o de Bauer e Jannach 2021 evidenciam que o uso desses modelos supervisionados em estratégias de segmentação preditiva eleva significativamente a acurácia das decisões comerciais sobretudo em campanhas de retenção e recomendação Análise Fatorial A análise fatorial é uma técnica estatística que permite a redução da dimensionalidade de bases com muitas variáveis correlacionadas facilitando a interpretação dos dados e a identificação de fatores latentes que influenciam o comportamento dos clientes Por meio dela é possível agrupar variáveis que representam dimensões comuns como sensibilidade a preço grau de digitalização ou nível de interação com a marca A análise fatorial é especialmente útil em estudos de comportamento organizacional e pesquisas B2B com grande número de atributos qualitativos HAIR et al 2009 Processos KDD e CRISPDM Para garantir que a segmentação seja realizada de forma estruturada e alinhada aos objetivos organizacionais é recomendada a adoção de metodologias consolidadas de mineração de dados como KDD Knowledge Discovery in Databases define um processo sistemático que inclui seleção préprocessamento transformação mineração de dados e interpretação dos resultados FAYYAD et al 1996 CRISPDM Cross Industry Standard Process for Data Mining modelo de referência amplamente utilizado na indústria que organiza o processo de ciência de dados em seis fases interdependentes compreensão do negócio compreensão dos dados preparação dos dados modelagem avaliação e implantação A adoção desses modelos metodológicos assegura que o projeto de segmentação seja consistente replicável e orientado a resultados promovendo 69 70 integração entre áreas técnicas e de negócio e contribuindo para uma governança analítica mais madura 233 DESAFIOS ATUAIS E PERSPECTIVAS FUTURAS Embora as técnicas analíticas e ferramentas de modelagem estejam cada vez mais acessíveis e democratizadas a segmentação B2B ainda enfrenta obstáculos significativos que comprometem a eficácia dos modelos implementados e a escalabilidade das estratégias geradas a partir deles Entre os principais desafios destacamse Fragmentação dos dados entre diferentes sistemas legados ERP CRM BI que dificulta a obtenção de uma visão única e consolidada do cliente comprometendo a consistência das análises Baixa qualidade incompletude ou desatualização dos dados fatores que afetam diretamente os resultados da modelagem preditiva e aumentam o risco de viés e inferências incorretas Falta de integração entre as áreas de marketing vendas e tecnologia da informação o que impede a implantação eficaz de estratégias baseadas em dados e dificulta a governança analítica organizacional Mudanças rápidas no comportamento dos clientes especialmente em cenários de incerteza ou crise como observado durante e após a pandemia de COVID19 que exigem modelos mais ágeis adaptativos e sensíveis ao tempo LI et al 2022 Como resposta a esses desafios observase uma tendência crescente à adoção de sistemas de segmentação dinâmica baseados em inteligência artificial e análise em tempo real Essas soluções buscam substituir os modelos estáticos e rígidos por abordagens adaptativas que acompanham o ciclo de vida do cliente em tempo contínuo O uso de algoritmos de deep learning redes neurais convolucionais e técnicas de análise de sentimentos aplicadas a interações textuais como emails chats transcrições de reuniões virtuais e chamadas telefônicas tem possibilitado uma visão mais rica e preditiva da jornada do cliente B2B permitindo intervenções mais precisas e tempestivas SU et al 2023 HUANG RUST 2020 A evolução da segmentação de clientes no ambiente B2B acompanha essa transformação passouse de abordagens empíricas e intuitivas baseadas em julgamento de especialistas ou histórico comercial para modelos matematicamente fundamentados e orientados por dados com validação estatística e capacidade de generalização Nesse novo paradigma a utilização combinada de métricas financeiras como o LTV Lifetime Value e o CAC Custo de Aquisição de Clientes associada a algoritmos de machine learning supervisionados e não supervisionados 71 permite a construção de segmentos altamente eficazes na maximização do valor do cliente com benefícios diretos em rentabilidade fidelização e ROI de campanhas A abordagem datadriven portanto não apenas amplia o conhecimento sobre os clientes como também potencializa a personalização de ofertas a eficiência operacional e a competitividade das organizações Em vez de se basear em segmentações fixas ela permite modelos responsivos e continuamente atualizados ajustandose conforme os dados comportamentais contextuais e mercadológicos evoluem Dessa forma a compreensão aprofundada dos critérios de segmentação o domínio das técnicas de análise de dados e sobretudo a integração entre áreas estratégicas como marketing vendas TI e inteligência de mercado tornamse pilares fundamentais para o sucesso das estratégias comerciais no cenário B2B contemporâneo Esse alinhamento é indispensável para garantir que os insights gerados pela análise de dados se traduzam em ações efetivas e orientadas a resultados Estudos futuros devem considerar entre outras vertentes promissoras a evolução dos modelos de inteligência artificial generativa com potencial para criar perfis sintéticos simular jornadas de clientes e gerar conteúdos personalizados em escala bem como a integração de dados não estruturados como voz texto livre imagens e vídeos nos modelos preditivos de valor e comportamento Essa integração representa um novo patamar de sofisticação analítica com impacto direto na assertividade automação e personalização da segmentação B2B 3 TRABALHOS CORRELATOS A segmentação de clientes e a gestão do valor que cada cliente representa ao longo do tempo constituem temas fundamentais na literatura contemporânea de marketing estratégico e gestão de relacionamento Tais práticas estão associadas à necessidade de alocar recursos de forma eficiente em um contexto de mercados saturados competitivos e cada vez mais orientados por dados Nesse cenário Kotler e Keller 2006 defendem que uma empresa não deve buscar satisfazer indiscriminadamente todos os consumidores mas sim concentrar seus esforços naqueles que demonstram maior potencial de retorno financeiro Segundo os autores um cliente lucrativo é definido como uma pessoa família ou empresa cujas receitas ao longo da vida excedem em um valor aceitável os custos da empresa para atrair vender e atender esse cliente A partir dessa concepção emerge o conceito de Lifetime Value LTV ou Valor do Tempo de Vida do Cliente como métricachave para orientar decisões estratégicas relacionadas à aquisição retenção e expansão do relacionamento com clientes O LTV possibilita mensurar o valor econômico de longo prazo gerado por cada cliente funcionando como um norteador para decisões mais inteligentes sobre quais perfis merecem investimento continuado e quais podem ser gradualmente despriorizados Nesse sentido a capacidade de identificar prever e gerenciar clientes de alto valor representa atualmente um dos pilares centrais das estratégias empresariais orientadas à performance e à fidelização sustentável O LTV tem se consolidado como uma métrica central não apenas para o planejamento de ações comerciais e 71 72 de marketing mas também como critério para segmentação preditiva orçamentação estratégica alocação de recursos multicanal e projeção de retorno sobre investimento ROI A sua importância crescente é amplamente respaldada por uma série de estudos contemporâneos como os de Pollak 2021 Zhang et al 2022 Li et al 2022 Afiniti 2022 e Su et al 2023 Esses autores demonstram que o LTV sintetiza de forma integrada os benefícios econômicos gerados pelas interações de um cliente com a organização ao longo de todo o seu ciclo de vida permitindo que as empresas tomem decisões mais assertivas tanto no nível operacional quanto no nível tático e estratégico Em ambientes digitais e omnichannel onde o comportamento do consumidor é volátil e altamente distribuído a modelagem do LTV tornase ainda mais crítica para antecipar churn identificar oportunidades de upsell e definir prioridades de atendimento Nesse contexto Kanchanapoom e Chongwatpol 2022 propõem um modelo de segmentação orientado por LTV aplicado ao setor de medicina complementar e alternativa um mercado caracterizado por forte ênfase em relacionamentos de longo prazo e confiança gradual do cliente Os autores dividem os clientes em quatro grupos distintos combinando critérios de valor e lealdade à marca O modelo tem como objetivo identificar segmentos de maior potencial futuro servindo como instrumento preditivo para nortear decisões comerciais e de marketing A classificação permite que a empresa adapte sua estratégia com base na posição do cliente no quadrante i clientes de alto valor e alta lealdade para os quais é recomendada a preservação e fortalecimento do vínculo existente ii clientes de alto valor mas com baixa lealdade cujo foco deve ser o fortalecimento da fidelização iii clientes de baixo valor com alta lealdade nos quais se deve buscar maximização de retorno com posterior descontinuação se necessário e iv clientes de baixo valor e baixa lealdade para os quais é recomendável a desvinculação progressiva Essa abordagem permite a alocação de recursos conforme o retorno potencial previsto reforçando a importância de estratégias direcionadas personalizadas e sustentáveis de relacionamento com o cliente Figura 11 Proposta de segmentação de clientes baseado no valor ao longo da sua vida e na sua lealdade à marca 73 Fonte Adaptado pelo autor O estudo de Afiniti 2022 reforça a centralidade do LTV na tomada de decisões gerenciais especialmente em setores com modelos contratuais de relacionamento com clientes Os autores argumentam que uma estimativa acurada do valor vitalício do cliente é essencial para o alinhamento entre investimentos em aquisição e o retorno financeiro projetado ao longo do tempo Para esse fim propõem um modelo flexível de riscos proporcionais que permite incorporar a probabilidade de churn evasão como variávelchave no cálculo do LTV A abordagem parte do pressuposto de que a organização possui um modelo de churn minimamente calibrado cuja integração à modelagem de LTV permite calcular com maior precisão o tempo esperado de permanência de um cliente ponderando esse tempo pelos lucros esperados em cada período Isso torna o modelo particularmente adequado para ambientes com relações contratuais explícitas como telecomunicações seguros ou assinaturas de serviços digitais onde os fluxos de receita são previsíveis mas dependem criticamente da retenção de clientes Complementarmente Su et al 2023 enfrentam um dos principais desafios relacionados à modelagem do LTV em ambientes não contratuais e altamente dinâmicos como plataformas de publicidade online Nesses contextos os dados de consumo por usuário tendem a ser escassos fragmentados ou inconsistentes dentro de um único domínio de análise Como alternativa os autores propõem uma estrutura adaptativa entre domínios denominada CDAF CrossDomain Adaptive Framework que permite a transferência de aprendizado de um domínio com dados abundantes por exemplo uma plataforma digital consolidada para outro domínio com dados mais limitados como uma plataforma emergente O método proposto busca mitigar dois problemas simultâneos i a escassez de dados históricos de consumo e ii o desalinhamento estatístico entre os domínios fonte e alvo Para isso a CDAF adota uma arquitetura que aprende padrões gerais de LTV em plataformas relacionadas preservando a generalização e ajustando as distribuições para o novo domínio Essa estratégia permite realizar predições mais robustas 73 74 mesmo em ambientes onde a informação direta sobre o comportamento dos usuários ainda está em formação destacandose como um exemplo promissor de transferência de aprendizado transfer learning no campo de modelagem de valor de cliente Na mesma linha de enfrentamento das limitações dos modelos tradicionais Zhang et al 2022 destacam que o LTV ao mensurar a contribuição econômica de longo prazo de clientes ao longo de relacionamentos contínuos com produtos ou serviços pode fornecer insumos decisivos para a definição de estratégias de entrega de valor No entanto os autores argumentam que as abordagens atuais enfrentam dois entraves significativos por um lado a incapacidade de modelar adequadamente relações temporais e não lineares por outro a ausência de soluções computacionalmente viáveis para grandes volumes de dados Em resposta Zhang e colaboradores propõem um modelo geral de LTV que supera a fragmentação das abordagens anteriores ao integrar aspectos de longo prazo em vez de se limitar a estimativas baseadas em cliques ou compras recentes Para alcançar esse objetivo os autores implementam uma solução de programação dinâmica rápida baseada em um método de bisseção mutado e na hipótese de experimentação sem memória o que permite acelerar o processo de otimização dos parâmetros envolvidos na projeção do LTV Essa proposta se mostra particularmente eficaz para aplicações em ambientes digitais e plataformas de serviços contínuos onde o comportamento do cliente é complexo e a avaliação de seu valor futuro exige uma abordagem preditiva mais sofisticada e adaptável Pollak 2021 explora um dos principais desafios enfrentados pelas empresas ao prever o Lifetime Value LTV de clientes em contextos não contratuais nos quais a relação com o consumidor é descontinuada ou intermitente Nesse tipo de ambiente onde não há garantias explícitas de continuidade da relação comercial a estimativa do valor vitalício do cliente tornase dependente essencialmente de padrões históricos de compra Com isso a previsão exige um modelo que consiga inferir comportamentos futuros a partir de dados passados O autor realiza uma comparação entre dois métodos o primeiro baseado no modelo estatístico conhecido como compre até morrer BuyTillYouDie Model que utiliza dados transacionais anteriores para modelar a propensão de recompra até a morte do cliente ie inatividade o segundo uma rede neural artificial aplicada ao mesmo conjunto de dados A análise realizada oferece resultados quantitativos e qualitativos que comparam a precisão a robustez e a aplicabilidade prática de ambas as abordagens Como conclusão Pollak propõe diretrizes práticas para que gestores de marketing escolham o modelo mais adequado a depender do tipo de dado disponível da complexidade do domínio e do objetivo estratégico da organização Em complemento Bauer e Jannach 2021 propõem um conjunto de técnicas baseadas em inteligência artificial que visam elevar a precisão das previsões de LTV em contextos altamente dinâmicos como o comércio eletrônico e plataformas digitais Dentre as inovações destacadas encontrase o uso de redes neurais recorrentes RNNs capazes de capturar dependências temporais nas interações entre clientes e produtos o que permite uma modelagem mais realista do comportamento sequencial de compra Além disso os autores empregam modelos de atenção attention models que aumentam a capacidade da rede em focar 75 seletivamente em eventos relevantes da sequência de interação melhorando a capacidade preditiva Para lidar com a qualidade variável dos dados é sugerido um préprocessamento avançado que inclui tratamento de valores ausentes normalização e codificação apropriada de variáveis categóricas Um dos diferenciais do estudo é a introdução de modelos Seq2Seq SequencetoSequence comumente utilizados em tarefas como tradução automática mas aqui aplicados para mapear a sequência completa de interações clienteproduto ao longo do tempo Por fim Bauer e Jannach propõem uma arquitetura híbrida combinando modelos baseados em características featurebased com modelos sequenciais de modo a explorar as vantagens de ambas as abordagens mitigando as limitações associadas a soluções isoladas Essa proposta representa um avanço no campo da modelagem preditiva especialmente no que diz respeito à complexidade comportamental dos consumidores digitais No mesmo escopo Li et al 2022 enfrentam o desafio da previsão do LTV em ambientes de altíssima escala como plataformas digitais com bilhões de usuários Nesse cenário a modelagem tradicional tornase inviável devido à diversidade de perfis de usuários à alta variabilidade dos dados e à necessidade de predições em tempo real A solução proposta pelos autores foi aplicada em uma empresa de tecnologia chinesa de grande porte utilizando um arcabouço robusto de ciência de dados e aprendizado de máquina que inclui algoritmos de previsão baseados em séries temporais machine learning supervisionado processamento em tempo real e inteligência artificial adaptativa A proposta se destaca pela capacidade de processar grandes volumes de dados de forma eficiente e responsiva permitindo que as predições de LTV sejam atualizadas dinamicamente conforme o comportamento do usuário evolui Essa abordagem demonstra que além da sofisticação algorítmica é imprescindível escalabilidade e integração com sistemas operacionais de negócio para garantir que as previsões de valor de cliente possam ser utilizadas de forma prática ágil e alinhada às necessidades de mercado Olnén 2022 destaca que a precisão na estimativa do Lifetime Value LTV é um fator determinante para organizações que desejam otimizar suas estratégias de relacionamento com o cliente e ao mesmo tempo maximizar a rentabilidade no longo prazo Para alcançar esse objetivo o autor emprega técnicas avançadas de aprendizado de máquina com ênfase em redes neurais profundas deep learning que se mostram particularmente eficazes na captura das complexidades e nuances comportamentais dos consumidores Esses modelos computacionais têm a capacidade de aprender a partir de grandes volumes de dados históricos padrões sutis em variáveis como frequência de compras valor transacional médio e nível de engajamento com os serviços prestados permitindo uma previsão mais acurada do valor futuro de cada cliente Ainda segundo Olnén 2022 uma compreensão aprofundada do LTV previsto capacita as empresas não apenas a avaliar o retorno sobre o investimento ROI em campanhas de marketing mas também a tomar decisões estratégicas quanto ao valor de mercado da própria empresa especialmente em contextos de aquisição fusão ou abertura de capital Além disso ao classificar os clientes com base em seu LTV estimado os profissionais de marketing podem realocar de forma mais eficiente os recursos destinados à aquisição retenção ou estratégias de upsell e crosssell O autor também chama atenção para uma característica estatística 75 76 frequentemente presente nas distribuições de LTV a cauda pesada isto é a presença de poucos clientes que geram valores muito elevados contrastando com a maioria que gera menor retorno Diante disso o desempenho dos modelos preditivos é avaliado a partir de dois critérios principais discriminação que verifica a capacidade de distinguir entre clientes de alto e baixo valor e calibração que mede a proximidade entre os valores previstos e os valores reais observados Contudo o processo de ponderação entre essas métricas segundo Olnén é oneroso e sujeito a vieses dado que exige análise manual Com base nos experimentos relatados o autor infere que a discriminação tende a receber 19 vezes mais peso que a calibração durante a avaliação dos modelos indicando uma priorização prática da capacidade de segmentação sobre a exatidão absoluta das previsões O autor também observa que há uma lacuna na literatura quanto ao efeito do aumento do horizonte temporal de dados históricos sobre a precisão preditiva dos modelos o que sugere um campo promissor para futuras investigações No mesmo escopo de aplicação ao varejo digital Jasek et al 2019 argumentam que a escolha de um modelo LTV apropriado é uma etapa crucial para empresas que buscam implementar uma abordagem gerencial baseada em valor do cliente em suas plataformas de ecommerce B2C O contexto do varejo online impõe pressupostos e desafios específicos como a natureza não contratual do relacionamento com os clientes a recorrência imprevisível das compras e a variabilidade no comportamento de consumo ao longo do tempo Os autores conduzem uma análise comparativa entre onze diferentes modelos probabilísticos de previsão de LTV avaliando tanto o desempenho estatístico quanto a capacidade preditiva em cenários reais de comércio eletrônico Os resultados obtidos evidenciam que embora existam diversas abordagens teóricas para a previsão do LTV alguns modelos são claramente superiores quando aplicados a ambientes de alta complexidade e dinamismo como o varejo digital A pesquisa reforça assim a necessidade de adequação contextual na escolha do modelo tendo em vista as características operacionais do negócio os tipos de dados disponíveis e os objetivos estratégicos da organização Em última análise o estudo de Jasek et al ressalta que o entendimento profundo do valor do cliente é essencial para sustentar decisões comerciais assertivas promover a eficiência operacional e garantir vantagem competitiva sustentável no ambiente digital contemporâneo Win e Bo 2020 enfatizam que a segmentação de clientes com base no Lifetime Value LTV configura uma prática essencial no marketing contemporâneo especialmente em ambientes digitais competitivos Ao possibilitar a identificação e a priorização de grupos de clientes segundo seu valor financeiro estimado ao longo do tempo essa abordagem permite que as empresas otimizem seus investimentos em aquisição retenção e fidelização Os autores aplicam o algoritmo Random Forest um modelo de aprendizado de máquina supervisionado com o objetivo de prever a classe de LTV dos clientes em um horizonte de um ano Os resultados obtidos demonstram que esse tipo de técnica é eficaz para orientar decisões estratégicas em Customer Relationship Management CRM permitindo que o varejista direcione seus recursos para clientes com maior potencial de retorno aumentando a eficiência operacional e maximizando o valor agregado O estudo reforça assim a viabilidade e a aplicabilidade prática de métodos preditivos baseados em machine learning na formulação de estratégias de marketing no contexto digital 77 Na mesma direção Dahana et al 2019 abordam o LTV como uma métrica crítica para a construção de estratégias de marketing eficazes especialmente em setores de rápida transformação como o varejo de moda online Em sua proposta metodológica os autores desenvolvem um modelo de classe latente que considera a frequência de compra a duração do ciclo de vida do cliente e o valor médio das transações como variáveis determinantes para inferir o LTV em diferentes segmentos de mercado O estudo introduz uma dimensão inovadora ao incorporar padrões de estilo de vida como variável explicativa para a heterogeneidade do LTV entre segmentos demonstrando que fatores comportamentais e psicográficos podem ter impacto substancial sobre o valor de longo prazo gerado pelos clientes Ao aplicar o modelo a um conjunto de dados reais de transações e perfis comportamentais de consumidores em uma plataforma de moda os autores demonstram a capacidade preditiva do modelo proposto ampliando as possibilidades de segmentação inteligente e customização de campanhas de marketing De forma complementar os próprios autores definem o LTV como o valor total esperado que a empresa pode obter de um único cliente ao longo de toda a duração do relacionamento considerando receita líquida e custos variáveis associados ao atendimento desse cliente o que alinha a métrica tanto à visão financeira quanto à perspectiva estratégica da organização No contexto da indústria de jogos digitais Burelli 2019 oferece uma contribuição relevante ao destacar os desafios e oportunidades na modelagem preditiva do comportamento dos jogadores especialmente em modelos de negócios orientados a serviços como os jogos FreetoPlay F2P Nesse tipo de modelo a ausência de barreiras iniciais de pagamento e a grande variação no comportamento de engajamento e de gastos tornam a previsão de receitas futuras altamente complexa O autor argumenta que diante dessa volatilidade tornase essencial dispor de modelos preditivos robustos capazes de fornecer suporte às decisões relacionadas à aquisição de usuários personalização de experiências ingame e otimização de recursos de desenvolvimento e operação O artigo ressalta que para que estratégias eficazes sejam implementadas é necessário entender não apenas as escolhas passadas dos jogadores mas também antecipar possíveis trajetórias futuras de comportamento utilizando dados históricos e técnicas avançadas de data science e aprendizado de máquina Nesse sentido a modelagem do LTV em jogos digitais não apenas amplia o entendimento sobre a economia do jogador mas também possibilita a definição de estratégias mais sustentáveis e orientadas por dados para monetização e retenção Wu et al 2023 exploram os desafios da previsão do Lifetime Value LTV em contextos onde a escassez de eventos de consumo e a alta variabilidade dos dados impõem barreiras significativas à precisão das estimativas Essa realidade é especialmente comum em aplicativos centrados no cliente nos quais a interação pode ser esporádica e os dados disponíveis são ruidosos ou incompletos Os autores criticam os métodos tradicionais que treinam preditores de LTV com base em uma única visão dos dados argumentando que essa abordagem tende a extrair conhecimento de forma limitada e potencialmente enviesada Para superar tais limitações propuseram uma estrutura de multivisualização contrastiva projetada 77 78 como uma solução plugandplay PnP compatível com diferentes arquiteturas de modelos backbones Essa estrutura integra múltiplos regressores de LTV heterogêneos que trazem conhecimentos complementares resultando em maior robustez e precisão na estimativa do valor do cliente Além disso a utilização do aprendizado contrastivo permite capturar relações latentes entre amostras semelhantes mitigando a dependência da abundância de dados rotulados e reforçando a capacidade do modelo em generalizar padrões úteis No mesmo eixo de inovação metodológica Wang et al 2019 propõem uma abordagem estatística para a modelagem do LTV que leva em consideração tanto a probabilidade de churn rotatividade quanto a distribuição assimétrica dos dados de valor frequentemente observada em mercados com clientes de alto e baixo valor extremo A proposta metodológica baseiase em uma mistura entre massa de ponto zero e distribuição lognormal resultando na chamada distribuição lognormal inflada de zero ZILN Tal modelagem é especialmente eficaz para capturar a natureza de cauda pesada dos dados de LTV ao mesmo tempo em que quantifica a incerteza nas previsões pontuais o que é fundamental para a tomada de decisões estratégicas sob risco Os autores validam o modelo tanto em modelos lineares tradicionais quanto em redes neurais profundas DNNs evidenciando sua flexibilidade e adaptabilidade a diferentes contextos de aplicação Para avaliação da performance preditiva são utilizados o coeficiente de Gini normalizado que mede a capacidade discriminativa do modelo e gráficos de decil que avaliam a calibração das previsões Os resultados empíricos obtidos a partir de dois conjuntos de dados reais demonstram a eficácia do modelo ZILN para diferentes aplicações comerciais e níveis de granularidade nos dados Por fim Cao et al 2023 abordam a previsão do comportamento do consumidor e sua interseção com a otimização de sortimento ampliando a aplicação de modelos preditivos de valor para além da estimativa do LTV Os autores investigam a escolha do cliente a partir de uma mistura de modelos de demanda que combina a demanda independente com o modelo de logit multinomial refletindo a realidade de mercados nos quais diferentes segmentos de clientes seguem padrões de decisão distintos Nesse contexto cada produto do portfólio possui uma receita esperada associada e o objetivo do modelo é encontrar o sortimento ótimo ou seja a combinação de produtos que maximiza a receita esperada de um cliente A proposta metodológica mostra que esse problema pode ser resolvido de forma eficiente por meio da formulação e resolução de um programa linear tornando a abordagem viável do ponto de vista computacional Um dos principais achados do estudo é que o tamanho ideal do sortimento cresce proporcionalmente ao tamanho relativo do segmento de clientes que se comporta conforme o modelo de demanda independente implicando que diferentes perfis de comportamento exigem estratégias diferenciadas de oferta de produtos para a maximização de valor 4 METODOLOGIA 41 TIPO DE PESQUISA Este trabalho propõe o desenvolvimento de uma metodologia prática de segmentação de clientes no contexto B2B com especial ênfase em empresas que 79 atuam no setor de serviços de cobrança embora seus princípios e técnicas sejam igualmente aplicáveis a outros setores intensivos em relacionamento com clientes como tecnologia consultoria engenharia e indústria de base A base conceitual da proposta está ancorada na clássica visão de Kotler e Keller 2012 segundo a qual a segmentação é um dos pilares fundamentais para a efetividade das estratégias de marketing Para os autores o conhecimento aprofundado do perfil dos clientes e sua organização em grupos coerentes permite a alocação mais racional de recursos a personalização de ofertas e a maximização do retorno sobre os investimentos em vendas e relacionamento A metodologia sugerida fundamentase em técnicas de análise de dados e algoritmos de clusterização com o objetivo de agrupar os clientes conforme variáveis quantitativas e qualitativas como nível de faturamento porte organizacional número de funcionários tempo de relacionamento com a empresa e indicadores de performance Essa abordagem se alinha às etapas do processo de Knowledge Discovery in Databases KDD descrito por Fayyad et al 1996 cuja proposta é transformar grandes volumes de dados brutos em conhecimento aplicável e estratégico por meio de etapas sistemáticas que envolvem seleção pré processamento transformação mineração e interpretação dos dados A utilização da clusterização como técnica de segmentação permite que se identifiquem padrões ocultos no comportamento dos clientes fornecendo à equipe comercial subsídios para tomada de decisão mais precisa quanto às estratégias de abordagem retenção e reativação de clientes Tal como sugerem Tan Steinbach e Kumar 2019 a identificação de agrupamentos homogêneos a partir de dados históricos melhora substancialmente a capacidade preditiva das ações comerciais permitindo um direcionamento mais assertivo dos recursos e maior aderência entre o perfil do cliente e a proposta de valor da empresa Com isso a proposta metodológica contribui para otimizar indicadores centrais da gestão comercial como a redução do Custo de Aquisição de Clientes CAC e o aumento do Lifetime Value LTV compreendido como o valor total gerado por um cliente ao longo do seu ciclo de vida com a empresa KOTLER KELLER 2012 OLIVEIRA 2018 Dessa forma a segmentação baseada em dados reais ancorada no ciclo do KDD não apenas confere maior objetividade ao processo de gestão de clientes como também reforça a cultura datadriven na tomada de decisões estratégicas Ao final do processo a pesquisa evidencia como o uso de algoritmos de agrupamento pode representar uma poderosa ferramenta de apoio à gestão comercial e à inteligência de mercado com impactos diretos sobre a rentabilidade a fidelização de clientes e o posicionamento competitivo da organização no ambiente B2B 42 PROCEDIMENTOS METODOLÓGICOS A metodologia proposta neste trabalho está fundamentada no processo de Descoberta de Conhecimento em Bases de Dados Knowledge Discovery in Databases KDD estruturado de maneira sequencial iterativa e orientada à extração de conhecimento útil a partir de grandes volumes de dados O KDD será operacionalizado por meio de sete etapas interligadas seleção préprocessamento 79 80 transformação mineração de dados avaliação interpretação e aplicação dos resultados no contexto de segmentação de clientes B2B A primeira etapa de seleção e coleta dos dados contempla a utilização de bases secundárias públicas e acessíveis contendo informações cadastrais e financeiras de empresas brasileiras que atuam em relações comerciais do tipo businesstobusiness B2B Os critérios para inclusão dos dados baseiamse em atributos relevantes para análise de rentabilidade e relacionamento comercial tais como faturamento anual número de funcionários tempo de operação no mercado e histórico de inadimplência Na etapa seguinte realizase o tratamento e préprocessamento dos dados essencial para garantir a qualidade e a integridade da base a ser analisada Serão aplicadas técnicas como identificação e remoção de ruídos inconsistências e valores ausentes com o apoio de métodos de imputação estatística e exclusão criteriosa de registros inválidos A normalização das variáveis será feita por meio de escalonamento MinMax e padronização por ZScore assegurando homogeneidade nas escalas numéricas Adicionalmente outliers serão detectados e tratados com base na análise gráfica de boxplots e nos limites estatísticos da amplitude interquartil IQR de forma a garantir a robustez dos modelos subsequentes Posteriormente será realizada a transformação e redução de dimensionalidade com o objetivo de condensar as variáveis mais relevantes e eliminar redundâncias sem perda significativa de informação Serão aplicadas técnicas como Análise Fatorial Exploratória AFE e Análise de Componentes Principais PCA que permitem extrair fatores latentes e otimizar a performance computacional dos algoritmos empregados nas etapas posteriores A segmentação dos clientes será conduzida por meio da técnica de clusterização não supervisionada Kmeans escolhida por sua eficiência computacional e simplicidade interpretativa A definição do número ideal de clusters será realizada com base em critérios objetivos como o Método do Cotovelo Elbow Method e a Pontuação de Silhueta Silhouette Score de modo a garantir a formação de grupos internamente homogêneos e externamente distintos A segmentação resultante permitirá a identificação de perfis comerciais com similaridades estruturais facilitando a definição de estratégias personalizadas Na sequência serão aplicados modelos de classificação e predição com o intuito de estimar o Lifetime Value LTV e a probabilidade de churn de cada cliente Para isso serão empregados algoritmos supervisionados como Árvores de Decisão Random Forest Redes Neurais Artificiais e Algoritmos Genéticos do tipo AntMiner A escolha dessas técnicas justificase por sua capacidade de capturar padrões complexos mesmo em contextos com alta dimensionalidade além de apresentarem boa interpretabilidade e desempenho preditivo comprovado na literatura A validação dos segmentos formados será realizada com base em métricas quantitativas e qualitativas Avaliarseá a pureza interna dos clusters isto é a proporção de membros que compartilham características predominantes bem como a diferenciação externa entre os grupos por meio da distância euclidiana entre os 81 centroides e de testes estatísticos como ANOVA e Testes T Além disso será conduzida uma análise de correlação entre os segmentos formados e indicadores de negócio relevantes como LTV Custo de Aquisição de Clientes CAC e taxa de churn Por fim a etapa de interpretação dos resultados buscará traduzir os achados analíticos em insumos estratégicos para a gestão comercial A partir da caracterização dos segmentos será possível propor ações de relacionamento prioritárias otimizar a alocação de recursos de marketing e estruturar campanhas de retenção ou prospecção considerando o potencial de rentabilidade e o risco associado a cada grupo de clientes Assim esperase demonstrar como uma abordagem orientada por dados pode impulsionar a eficiência e a eficácia das estratégias de segmentação no contexto B2B 43 FERRAMENTAS E SOFTWARES As etapas de processamento análise e modelagem dos dados serão implementadas por meio da linguagem de programação Python amplamente adotada em projetos de ciência de dados devido à sua versatilidade robustez e vasta gama de bibliotecas especializadas A manipulação de dados tabulares e estruturas matriciais será realizada com o suporte das bibliotecas Pandas e NumPy permitindo uma organização eficiente dos dados e facilitando operações estatísticas agregações e transformações Para a identificação e visualização de valores ausentes será utilizada a biblioteca Missingno que oferece representações gráficas intuitivas para apoiar decisões sobre imputações ou exclusões Na etapa de modelagem preditiva e segmentação o framework Scikitlearn desempenhará papel central sendo responsável pela aplicação de algoritmos de clusterização como Kmeans classificação supervisionada como Random Forest e Árvores de Decisão além de ferramentas de préprocessamento normalização escalonamento e codificação e validação cruzada de modelos Para a redução de dimensionalidade e análise fatorial será empregada a biblioteca FactorAnalyzer que permite a extração de componentes principais e a avaliação da adequação das variáveis aos fatores latentes A visualização gráfica dos resultados será conduzida com o auxílio das bibliotecas Matplotlib e Seaborn que oferecem recursos avançados para gerar gráficos de dispersão boxplots mapas de calor histogramas e outras representações úteis para análise exploratória e apresentação dos achados Por fim a modelagem preditiva baseada em algoritmos genéticos será realizada por meio do AntMiner técnica que integra princípios de inteligência coletiva e evolução computacional proporcionando classificações interpretáveis e eficazes especialmente em cenários de regras de decisão complexas 44 LIMITAÇÕES METODOLÓGICAS O presente estudo apresenta algumas limitações que devem ser consideradas na interpretação e generalização dos resultados A principal restrição está relacionada à natureza secundária dos dados utilizados os quais apesar de representativos podem não abranger com exatidão todas as particularidades do 81 82 mercado em análise Essa limitação compromete em certa medida a profundidade da inferência sobre comportamentos específicos ou dinâmicas emergentes em determinados nichos Além disso a aplicabilidade prática dos resultados obtidos está condicionada à relativa estabilidade dos padrões históricos de comportamento das empresas o que pode ser impactado por mudanças econômicas variações setoriais ou transformações estruturais nas estratégias de consumo e relacionamento entre empresas Outro fator que merece destaque é a complexidade interpretativa de alguns modelos analíticos empregados como as redes neurais artificiais cuja natureza de caixapreta pode dificultar a explicação dos critérios de segmentação para gestores não técnicos Essa característica pode gerar resistência organizacional à adoção de abordagens baseadas em ciência de dados especialmente em ambientes empresariais mais tradicionais nos quais a tomada de decisão ainda se baseia fortemente em heurísticas e experiências acumuladas A base de dados utilizada na pesquisa é denominada baseleadsokxlsx a qual contém registros reais de empresas que mantêm ou mantiveram algum tipo de relação comercial com uma prestadora de serviços de cobrança Conforme argumentam Han Kamber e Pei 2012 a qualidade consistência e relevância dos dados de entrada são determinantes para o êxito de qualquer projeto de mineração de dados justificando a escolha de uma base já consolidada revisada e organizada Essa escolha também está em consonância com as orientações de Fayyad et al 1996 sobre a importância da preparação de dados no ciclo KDD Knowledge Discovery in Databases etapa crítica que antecede a análise propriamente dita A base em questão reúne aproximadamente 1000 registros sendo que cada linha representa uma empresa única Os dados incluem tanto informações cadastrais básicas como razão social e setor de atuação quanto variáveis de maior relevância analítica como o Faturamento Presumido FatPres indicador do volume financeiro movimentado pela empresa e a Quantidade de Funcionários que permite inferir o porte organizacional Complementarmente a base contempla variáveis auxiliares como segmento de mercado localização geográfica risco de inadimplência e status de atividade que foram utilizadas de forma exploratória na etapa inicial do estudo Essas informações adicionais contribuíram para verificar a consistência dos clusters gerados bem como a sua capacidade de representar grupos economicamente e operacionalmente distintos Em linha com as contribuições de Kotler e Keller 2012 compreender o tamanho a complexidade e o potencial de consumo de cada cliente é um passo fundamental para qualquer iniciativa de segmentação orientada a resultados especialmente no contexto B2B onde os volumes transacionais e os ciclos de relacionamento tendem a ser mais longos Ao optar por uma base realista e alinhada ao mercado de atuação da empresa em questão o estudo assegura maior aplicabilidade dos seus achados Dessa forma os clusters resultantes da análise podem ser efetivamente utilizados como subsídio à atuação da equipe comercial permitindo a personalização de estratégias de prospecção abordagem e retenção de acordo com o perfil identificado de cada segmento KOTLER KELLER 2012 OLIVEIRA 2018 441 PRÉ PROCESSAMENTO 83 Após a escolha da base de dados foi necessário realizar o pré processamento etapa considerada essencial em qualquer projeto de mineração de dados e que influencia diretamente a qualidade dos modelos e das interpretações subsequentes FAYYAD et al 1996 HAN KAMBER PEI 2012 O pré processamento tem como objetivo central preparar os dados de forma a garantir que os algoritmos de análise operem sobre um conjunto coerente livre de ruídos e inconsistências maximizando a confiabilidade dos resultados A primeira atividade conduzida nesse processo foi a etapa de limpeza dos dados que consistiu na verificação detalhada da qualidade dos registros bem como na identificação e eliminação de inconsistências erros de digitação duplicatas e valores ausentes Conforme alertam Han Kamber e Pei 2012 a presença de dados incompletos ou imprecisos pode comprometer profundamente o desempenho de modelos preditivos e de agrupamento levando a interpretações equivocadas e à tomada de decisões inadequadas Durante essa análise observouse que diversas linhas da base não apresentavam valores preenchidos em campos considerados críticos especialmente o Faturamento Presumido FatPres e a Quantidade de Funcionários variáveis fundamentais para o processo de clusterização Por essa razão optouse pela exclusão de todos os registros incompletos nessas variáveis de modo a assegurar a integridade e a consistência da análise posterior A segunda etapa consistiu na transformação dos dados mais especificamente na aplicação de uma função logarítmica sobre os valores de faturamento Essa técnica é amplamente utilizada em estudos que lidam com variáveis financeiras dada a frequência de distribuições assimétricas e a presença de outliers severos ou seja empresas cujos faturamentos são excepcionalmente altos em comparação com a média da amostra TAN STEINBACH KUMAR 2019 Ao aplicar o logaritmo reduzse a amplitude dos valores comprimindo as escalas e permitindo uma análise mais homogênea Essa transformação é particularmente útil em algoritmos de agrupamento baseados em distância como o Kmeans pois evita que empresas muito grandes exerçam influência desproporcional na definição dos centroides dos clusters HAN KAMBER PEI 2012 Tratase portanto de uma etapa crucial para garantir que a segmentação reflita padrões reais de similaridade e não apenas diferenças de ordem de magnitude Além disso foi incorporada uma nova variável ao conjunto de dados denominada Desempenho do Cliente Essa variável não estava presente originalmente na base mas foi simulada com valores entre 1 e 10 com o intuito de ilustrar o potencial analítico da introdução de métricas qualitativas na segmentação de clientes Conforme salientam Kotler e Keller 2012 a avaliação do desempenho dos clientes deve considerar não apenas aspectos financeiros mas também comportamentais e relacionais como a regularidade nos pagamentos engajamento com os serviços e feedbacks operacionais Embora a métrica de desempenho utilizada neste estudo tenha caráter ilustrativo sua inclusão representa uma boa prática na modelagem orientada ao cliente permitindo a construção de estratégias mais personalizadas e eficientes Com essas ações de limpeza transformação e criação de variáveis adicionais a base de dados passou a apresentar melhores condições para a aplicação de técnicas de clusterização assegurando maior robustez estatística coerência analítica e aplicabilidade prática aos resultados obtidos 83 84 442 ANÁLISE ESTATÍSTICA Depois da etapa de preparação da base de dados foi conduzida uma análise estatística exploratória com o objetivo de compreender em maior profundidade as características dos dados disponíveis antes da aplicação dos métodos de agrupamento Conforme argumentam Han Kamber e Pei 2012 a análise exploratória constitui uma etapa indispensável no processo de mineração de dados pois permite identificar padrões inconsistências tendências e valores atípicos que podem comprometer a integridade dos resultados extraídos pelas técnicas posteriores O primeiro passo consistiu no cálculo de medidas estatísticas descritivas como média valor mínimo máximo e amplitude com ênfase nas variáveis de maior relevância para o estudo a saber Faturamento Presumido e Quantidade de Funcionários Como apontam Fayyad et al 1996 a obtenção de resumos estatísticos é uma prática fundamental para lidar com grandes volumes de dados uma vez que facilita a interpretação inicial e auxilia na identificação de assimetrias e possíveis distorções A análise revelou que embora a maior parte das empresas apresente faturamento em faixas intermediárias algumas registram valores extremamente elevados chegando a cifras bilionárias Essa disparidade justifica a aplicação da transformação logarítmica ao faturamento procedimento amplamente adotado em estudos financeiros com o intuito de minimizar a influência de outliers e promover uma distribuição mais equilibrada dos dados TAN STEINBACH KUMAR 2019 Quanto à Quantidade de Funcionários verificouse uma heterogeneidade significativa entre as empresas analisadas com registros que variam de microestruturas operacionais a grandes corporações Essa diversidade reforça a necessidade de considerar múltiplos atributos no processo de segmentação como defendido por Kotler e Keller 2012 que enfatizam a importância de reconhecer a pluralidade de perfis no ambiente B2B onde diferentes portes organizacionais implicam necessidades e comportamentos comerciais distintos Para aprofundar a análise foi examinada a correlação entre o faturamento e o porte das empresas representado pela quantidade de colaboradores Utilizouse para isso o coeficiente de correlação de Pearson ferramenta estatística indicada por Han Kamber e Pei 2012 para avaliar a intensidade da associação linear entre variáveis numéricas O valor obtido próximo de 0043 revelou uma correlação praticamente nula entre essas variáveis indicando que o número de funcionários não é por si só um preditor direto do faturamento empresarial Esse achado está em consonância com a realidade do mercado B2B onde empresas enxutas em termos de pessoal como firmas de consultoria ou tecnologia podem apresentar faturamentos elevados ao passo que organizações com grande número de funcionários como prestadoras de serviços operacionais podem operar com margens de receita mais modestas Para ilustrar visualmente essa constatação foi construída uma matriz de correlação Figura 1 conforme recomendação de Tan Steinbach e Kumar 2019 Essa ferramenta permite a representação gráfica da força de relação entre pares de 85 variáveis Na diagonal principal observase sempre o valor 1 que representa a autocorrelação de cada variável consigo mesma Fora da diagonal o valor de 0043 entre Faturamento e Funcionários reforça visualmente a ausência de relação direta entre essas variáveis Figura 12 Matriz de correlação entre Faturamento e Quantidade de Funcionários Essa visualização evidencia que as variáveis analisadas não possuem dependência linear o que é um indicativo importante para o processo de clusterização Isso demonstra que não é possível nem prudente assumir que uma empresa com maior número de funcionários necessariamente gera mais receita ou viceversa Tal constatação justifica a decisão metodológica de manter ambas as variáveis na modelagem visto que cada uma oferece uma dimensão analítica distinta agregando valor à identificação de padrões e à construção dos grupos 85 86 Ao utilizar essas variáveis em conjunto no processo de agrupamento o algoritmo pode captar nuances específicas do perfil organizacional dos clientes Por exemplo é possível identificar clusters compostos por empresas de alta receita e estrutura reduzida como startups de base tecnológica bem como grupos formados por organizações com muitos funcionários mas com faturamento relativamente menor como empresas do setor de serviços operacionais ou intensivos em mão de obra A integração de variáveis que capturam diferentes aspectos do perfil empresarial potencializa a eficácia da segmentação tornandoa mais robusta e alinhada às exigências do mercado Essa abordagem também se mostra coerente com os princípios defendidos por Kotler e Keller 2012 que argumentam que estratégias comerciais bemsucedidas no ambiente B2B exigem uma compreensão holística do comportamento do cliente Ao evitar reducionismos e considerar a complexidade dos dados aumentase a probabilidade de gerar grupos mais coerentes e úteis para a definição de ações estratégicas de vendas prospecção e relacionamento 443 MINERAÇÃO DE DADOS Com a base de dados devidamente limpa transformada e explorada estatisticamente foi possível avançar para a etapa de mineração de dados considerada uma das fases mais importantes do processo de Descoberta de Conhecimento em Bases de Dados Knowledge Discovery in Databases KDD conforme proposto por Fayyad et al 1996 Esta fase é responsável por extrair padrões úteis e estruturados a partir de grandes volumes de dados sendo particularmente relevante em contextos empresariais que visam gerar inteligência competitiva No escopo desta pesquisa a mineração de dados tem como finalidade identificar padrões ocultos no perfil dos clientes empresariais possibilitando a criação de estratégias mais personalizadas e eficazes de relacionamento comercial marketing e vendas Para isso recorrese ao uso de técnicas de agrupamento também chamadas de clustering que possibilitam organizar os clientes em grupos homogêneos de acordo com semelhanças estruturais e comportamentais HAN KAMBER PEI 2012 Dentre os diversos algoritmos de agrupamento disponíveis optouse pelo uso do KMeans amplamente reconhecido na literatura por sua eficácia na segmentação de dados numéricos contínuos simplicidade conceitual e rapidez de execução TAN STEINBACH KUMAR 2019 Tratase de um algoritmo de clustering não supervisionado ou seja que não requer informações prévias sobre as classes ou categorias dos dados Seu funcionamento baseiase na medição da similaridade entre registros por meio da distância euclidiana atribuindo cada ponto ao centroide mais próximo e iterativamente recalculando a posição dos centroides até atingir a convergência A ausência da necessidade de rótulos prévios torna o KMeans especialmente adequado para ambientes em que os dados não foram previamente classificados como é o caso de muitas bases comerciais reais permitindo a descoberta de estruturas latentes com autonomia 87 Além do seu rigor matemático o KMeans se destaca por ser um dos métodos mais acessíveis em termos computacionais podendo ser executado com eficiência mesmo em bases de grande porte Isso o torna uma ferramenta altamente viável para ser utilizada por equipes comerciais e de marketing que muitas vezes não dispõem de suporte técnico contínuo Outro diferencial relevante está na clareza dos seus resultados que facilita a interpretação e aplicação prática dos clusters identificados característica essencial quando se busca utilizar a análise de dados como ferramenta de apoio à tomada de decisão estratégica KOTLER KELLER 2012 Durante o delineamento metodológico deste trabalho outras técnicas também foram consideradas a fim de assegurar que a escolha do algoritmo mais adequado fosse pautada em critérios de coerência com os objetivos da pesquisa A Análise Fatorial por exemplo é frequentemente utilizada para redução de dimensionalidade agrupando variáveis correlacionadas em componentes principais e facilitando a visualização e interpretação de grandes conjuntos de dados HAIR et al 2009 Contudo como este estudo concentrouse em um número propositalmente reduzido de variáveis especificamente o Faturamento e a Quantidade de Funcionários optouse por não aplicar métodos de redução preservando a interpretação direta dos clusters gerados a partir dessas variáveis brutas De forma semelhante algoritmos supervisionados como Árvore de Decisão e Random Forest são frequentemente utilizados em tarefas preditivas em que existe um atributo de interesse variávelalvo conhecido e rotulado HAN KAMBER PEI 2012 Porém como a intenção deste trabalho não é prever um resultado específico mas sim descobrir padrões naturais de agrupamento entre empresas esses métodos supervisionados não se mostraram apropriados ao problema em questão Avaliaramse ainda abordagens mais sofisticadas como os algoritmos inspirados em inteligência de enxames por exemplo a Otimização por Colônia de Formigas Ant Colony Optimization ACO que apesar de sua eficácia em contextos de alta complexidade apresentam custo computacional elevado e exigem parametrização cuidadosa para convergir a soluções estáveis Tais requisitos dificultam sua aplicação em ambientes empresariais rotineiros nos quais a simplicidade operacional e a rapidez na obtenção de insights são características decisivas TAN STEINBACH KUMAR 2019 Dentro desses aspectos a escolha pelo algoritmo KMeans demonstrouse a mais adequada tanto do ponto de vista técnico quanto prático conciliando rigor analítico velocidade de processamento e usabilidade Essa decisão metodológica está em consonância com a proposta deste estudo que busca entregar uma solução robusta e aplicável para segmentação de clientes no contexto B2B promovendo uma análise baseada em dados com potencial de impacto direto nas estratégias comerciais da organização Diante das comparações realizadas entre diferentes abordagens o algoritmo KMeans foi definitivamente escolhido como a técnica central de agrupamento para este trabalho devido ao seu equilíbrio entre simplicidade operacional eficiência computacional qualidade dos agrupamentos gerados e clareza dos resultados obtidos Para determinar o número ótimo de clusters a ser utilizado no algoritmo foi 87 88 aplicado o método do cotovelo elbow method amplamente recomendado por Han Kamber e Pei 2012 como uma das formas mais eficazes de validar a quantidade de agrupamentos em cenários não supervisionados Essa técnica consiste em calcular a soma das distâncias quadráticas dentro dos clusters inércia intracluster para diferentes valores de kkk e observar em qual ponto o ganho marginal na redução dessa inércia se torna pouco expressivo formando um cotovelo na curva o que indica o número ideal de clusters para balancear qualidade da segmentação e parcimônia interpretativa Figura 13 Gráfico do método do cotovelo para definição do número de clusters dados brutos A análise inicial foi realizada utilizando os dados de Faturamento na forma original sem transformações A Figura 2 apresenta o gráfico gerado nessa etapa em que se nota uma queda acentuada nos primeiros valores de kkk sinalizando que o algoritmo é eficaz em reduzir a variabilidade dentro dos grupos à medida que mais clusters são adicionados No entanto observase também que a partir de determinado ponto essa taxa de redução desacelera consideravelmente indicando que a adição de novos agrupamentos não oferece ganhos substanciais na compactação dos dados Esse comportamento é típico em bases com alta variabilidade interna HAN KAMBER PEI 2012 como aquelas compostas por registros financeiros empresariais e reforça a aplicabilidade do método do cotovelo como instrumento diagnóstico 89 Apesar disso um obstáculo importante emergiu nessa primeira análise a presença de valores extremos de Faturamento outliers bastante comuns em bases do tipo B2B especialmente quando há empresas de grande porte inseridas no mesmo conjunto que pequenas e médias organizações Esses valores fora da curva distorcem a distribuição e afetam diretamente a métrica de inércia fazendo com que o gráfico do cotovelo perca definição e dificulte a visualização do ponto de inflexão exato Conforme descrevem Han Kamber e Pei 2012 esse fenômeno é recorrente em bases com ampla dispersão numérica e exige estratégias de tratamento específico como normalização ou transformação de escala Como solução foi adotada a transformação logarítmica da variável Faturamento prática consagrada na literatura estatística para lidar com distribuições assimétricas e escalas amplas especialmente em dados financeiros TAN STEINBACH KUMAR 2019 Ao aplicar o logaritmo as diferenças entre os valores se comprimem reduzindo a influência de outliers e equilibrando a contribuição dos dados para o cálculo da inércia A reaplicação do método do cotovelo com a nova variável transformada está ilustrada na Figura 3 Observase neste novo gráfico que a curva se torna mais suave e o ponto de inflexão mais nítido permitindo identificar com maior segurança o número ótimo de clusters a ser utilizado Essa transformação portanto não apenas melhora a qualidade estatística da análise como também fortalece sua robustez metodológica eliminando ruídos causados por distorções extremas na escala de Faturamento Complementarmente para reforçar a escolha do número de agrupamentos e validar visualmente a coerência dos clusters gerados foram elaborados gráficos de dispersão conforme recomendação de Han Kamber e Pei 2012 que destacam a importância da visualização como recurso para validar padrões de agrupamento e comunicar resultados de maneira acessível a públicos não técnicos A Figura 4 apresenta o gráfico de dispersão elaborado com os dados originais de Faturamento versus Quantidade de Funcionários e nela é possível perceber uma forte concentração de pontos em uma faixa estreita com alguns registros distantes à direita do plano representando empresas de altíssimo faturamento Essa compressão compromete a clareza da visualização e pode obscurecer os agrupamentos reais Em resposta a essa limitação foi gerado um novo gráfico de dispersão agora com o Faturamento transformado logaritmicamente conforme apresentado na Figura 5 Essa modificação melhora substancialmente a distribuição visual dos dados permitindo observar com mais nitidez como os pontos se organizam no espaço bidimensional e consequentemente como os clusters se definem Essa abordagem confirma de maneira empírica e visual que a transformação logarítmica não apenas aprimora os resultados do método do cotovelo mas também potencializa a capacidade do KMeans de formar grupos mais bem definidos coerentes e aderentes à realidade mercadológica Ao reduzir os efeitos dos extremos a análise tornase mais representativa da distribuição da maioria das empresas da base possibilitando a formulação de estratégias comerciais mais precisas e contextualizadas Figura 14 Gráfico do método do cotovelo com transformação logarítmica do Faturamento 89 90 A análise do gráfico do método do cotovelo após a aplicação da transformação logarítmica sobre a variável Faturamento revelou uma mudança significativa no comportamento da curva Ao suavizar a distribuição dos dados a transformação eliminou distorções provocadas pelos valores extremamente elevados de algumas empresas que anteriormente exerciam influência desproporcional sobre os cálculos de inércia intracluster Como ressaltam Tan Steinbach e Kumar 2019 esse tipo de transformação é altamente recomendado em contextos de análise financeira pois permite uma melhor estabilização da variância e viabiliza uma interpretação mais precisa da estrutura latente dos dados Como resultado o ponto de inflexão que indica a quantidade ótima de agrupamentos tornouse visualmente mais nítido facilitando sua identificação e consequentemente aumentando a confiabilidade do modelo de segmentação HAN KAMBER PEI 2012 Paralelamente à análise numérica proporcionada pelo método do cotovelo recorreuse ao uso de gráficos de dispersão como técnica complementar de validação visual dos agrupamentos Essa prática é incentivada por Han Kamber e Pei 2012 que reconhecem a importância das representações gráficas como ferramentas essenciais para avaliar a coesão e a separabilidade dos clusters formados sobretudo quando o objetivo é comunicar os achados a públicos diversos incluindo gestores e tomadores de decisão não especializados em ciência de dados Os gráficos de dispersão facilitam a observação intuitiva dos padrões de distribuição mostrando como os registros se posicionam em relação às variáveis principais neste estudo Faturamento e Quantidade de Funcionários A Figura 4 apresenta o gráfico de dispersão construído com os dados de Faturamento em sua escala original Notase uma alta concentração de pontos próximos à origem do plano cartesiano o que indica que a maioria das empresas possui faturamentos relativamente baixos No entanto observase também a presença de pontos isolados e muito distantes no eixo horizontal correspondentes a 91 empresas com faturamentos excepcionalmente elevados Essa disparidade gera uma compressão visual dos dados dificultando a identificação clara dos agrupamentos e comprometendo a análise visual da distribuição dos clientes Para contornar essa limitação e aprimorar a qualidade da visualização foi gerado um novo gráfico de dispersão com o Faturamento transformado logaritmicamente conforme orientações metodológicas de Tan Steinbach e Kumar 2019 A Figura 5 exibe os resultados dessa abordagem evidenciando uma distribuição muito mais homogênea dos dados no espaço bidimensional Com a compressão da escala os pontos passam a se posicionar de forma mais equilibrada permitindo visualizar com maior nitidez os contornos de cada cluster Essa clareza reforça a qualidade do agrupamento gerado pelo algoritmo KMeans que agora opera sobre uma base de dados menos assimétrica e mais representativa da realidade mercadológica Portanto a aplicação da transformação logarítmica tanto na análise do método do cotovelo quanto na visualização por dispersão revelouse uma estratégia metodológica eficaz para lidar com a natureza desigual dos dados financeiros empresariais A melhora na definição dos clusters não apenas contribui para a robustez da modelagem mas também facilita sua aplicação prática permitindo que os resultados gerados orientem decisões comerciais mais precisas e segmentadas Figura 15 Distribuição dos clusters considerando Faturamento original e Quantidade de Funcionários Ao analisar a Figura 4 observase uma forte concentração de pontos próximos ao valor zero no eixo de Faturamento com apenas um pequeno número de empresas posicionadas mais à direita do gráfico evidenciando valores de faturamento consideravelmente elevados Esse tipo de distribuição desigual é característico de bases de dados empresariais especialmente em contextos B2B nos quais um número reduzido de grandes contas concentra a maior parte da receita 91 92 da empresa enquanto a maioria dos clientes possui faturamentos mais modestos HAN KAMBER PEI 2012 Essa assimetria severa compromete a utilidade do gráfico de dispersão original pois os dados da maior parte dos clientes ficam comprimidos em uma faixa muito estreita dificultando a distinção de perfis e a visualização de possíveis agrupamentos Para mitigar essa distorção e permitir uma análise mais clara e representativa foi aplicada uma transformação logarítmica na variável Faturamento Tal estratégia é amplamente recomendada na literatura especializada como forma eficaz de lidar com variáveis altamente assimétricas e de atenuar a influência de outliers TAN STEINBACH KUMAR 2019 A Figura 5 que apresenta o gráfico de dispersão com o Faturamento já transformado evidencia uma distribuição mais equilibrada ao longo do eixo horizontal Os pontos agora se espalham de maneira mais homogênea o que facilita não apenas a percepção visual dos clusters mas também melhora os cálculos de distância realizados pelo algoritmo KMeans resultando em agrupamentos mais coerentes e consistentes com a realidade de mercado Além dos ganhos técnicos a transformação logarítmica também contribui para a clareza da comunicação dos resultados especialmente quando apresentados a públicos não técnicos O gráfico com a escala ajustada oferece uma representação visual mais acessível e intuitiva permitindo que gestores e tomadores de decisão compreendam facilmente as justificativas adotadas nas etapas de pré processamento como defendido por Han Kamber e Pei 2012 Essa abordagem favorece a aceitação prática do modelo e fortalece sua aplicação no ambiente corporativo Portanto a comparação entre os gráficos de dispersão com o Faturamento em escala original Figura 4 e transformada Figura 5 comprova que o uso do logaritmo foi uma decisão metodológica essencial para aprimorar a qualidade da clusterização A transformação permitiu que o algoritmo detectasse padrões mais representativos da diversidade empresarial ao mesmo tempo que facilitou a visualização e interpretação dos dados Com isso os objetivos da segmentação identificar grupos de clientes mais precisos úteis e alinhados às estratégias comerciais foram alcançados com maior eficácia Figura 16 Distribuição dos clusters considerando Faturamento transformado em log e Quantidade de Funcionários 93 A análise dos gráficos de dispersão comprova de forma clara e objetiva que a combinação do algoritmo KMeans com a transformação logarítmica da variável Faturamento constitui uma estratégia altamente eficaz para a segmentação de clientes em grupos mais homogêneos Essa abordagem equilibra a distribuição dos dados e revela padrões que seriam mascarados por valores extremos conforme ressaltam Han Kamber e Pei 2012 e Tan Steinbach e Kumar 2019 Ao suavizar as discrepâncias provocadas por grandes outliers a transformação permite ao algoritmo formar clusters mais representativos da realidade empresarial A aplicação conjunta dessas técnicas assegura que o agrupamento final reflita com maior fidelidade a diversidade dos perfis de clientes oferecendo uma leitura mais justa tanto para pequenas empresas quanto para grandes contas estratégicas Como destacam Kotler e Keller 2012 a clareza na definição dos segmentos é essencial para que as áreas comerciais e de marketing possam alinhar suas ações ao potencial de cada grupo promovendo maior eficácia nas estratégias de prospecção relacionamento e fidelização Adicionalmente a visualização gráfica dos clusters favorece a compreensão dos resultados por gestores e equipes operacionais que não possuem formação técnica tornando a segmentação uma ferramenta acessível e prática no apoio ao planejamento comercial Essa acessibilidade permite por exemplo a personalização de ofertas e a alocação mais inteligente de recursos garantindo que o esforço comercial seja concentrado nos clusters com maior potencial de receita e valor de relacionamento ao longo do tempo Dessa forma consolidase uma atuação orientada por dados alinhada à estratégia de negócios e voltada à maximização do retorno sobre os investimentos realizados KOTLER KELLER 2012 444 SIMULAÇÃO DE MÉTRICAS DE NEGÓCIO 93 94 Para complementar a análise técnica dos clusters e estabelecer uma conexão direta entre a segmentação de clientes e indicadores estratégicos de negócio foi realizada uma simulação prática de duas métricas amplamente utilizadas na gestão comercial no contexto B2B o Custo de Aquisição de Clientes CAC e o Lifetime Value LTV conforme proposto por Kotler e Keller 2012 O LTV ou valor vitalício do cliente representa o montante estimado que uma empresa tende a gerar ao longo de todo o relacionamento com um cliente Tratase de uma métrica fundamental para avaliar a lucratividade potencial de contas individuais ou segmentos específicos Para este estudo optouse por uma abordagem prática e simplificada o LTV foi estimado como 120 do faturamento atual de cada cliente simulando cenários comuns em mercados B2B como renovações contratuais vendas adicionais upsell e vendas cruzadas crosssell conforme orientação de Stone e Woodcock 2014 Essa abordagem se justifica pela ausência de variáveis históricas detalhadas sobre tempo de permanência ou taxa de churn inviabilizando o uso de fórmulas preditivas mais robustas Cabe destacar que embora o LTV idealmente deva considerar fatores como duração do ciclo de vida e recorrência de compras neste caso a simulação percentual foi adotada com o objetivo de viabilizar comparações realistas entre os clusters formados oferecendo uma perspectiva relativa do valor de cada grupo O CAC por sua vez foi estimado com base em uma média representativa dos custos associados à aquisição de clientes incluindo despesas com marketing deslocamentos equipe comercial e estrutura de propostas Essa estimativa se alinha à definição de Kotler e Keller 2012 que defendem que o CAC deve refletir o conjunto de investimentos necessários à conversão em vendas sobretudo em processos consultivos típicos do ambiente B2B A partir dessas duas métricas simuladas para cada cliente foram calculadas as médias de LTV e CAC por cluster permitindo a construção de um panorama comparativo da rentabilidade relativa de cada grupo Essa comparação fornece subsídios para identificar quais segmentos apresentam o melhor equilíbrio entre custo de aquisição e retorno financeiro contribuindo para a otimização dos investimentos em marketing e vendas STONE WOODCOCK 2014 A Figura 6 apresenta um gráfico de dispersão com os valores médios de CAC e LTV por cluster Cada ponto no gráfico representa um cluster distinto posicionandose de acordo com o custo médio de aquisição e o valor médio de retorno vitalício Essa visualização facilita a identificação de grupos mais atrativos caracterizados por alto LTV e CAC controlado bem como de clusters com baixo retorno e custos elevados que podem representar ineficiências operacionais Figura 17 Relação entre CAC e LTV médios por cluster 95 Observase na Figura 6 que determinados clusters se destacam por apresentar um LTV médio elevado mesmo mantendo CACs dentro da média geral Essa característica confirma a premissa de Kotler e Keller 2012 de que clientes de alto valor compensam os custos iniciais de aquisição por meio de ciclos mais longos fidelidade e maior ticket médio Esses clusters representam portanto contas estratégicas que justificam a aplicação de ações mais intensivas e personalizadas de relacionamento como atendimento dedicado e propostas sob medida Em contrapartida a análise revela clusters com LTV relativamente baixo mas CAC médio semelhante ao dos grupos mais rentáveis Conforme alertado por Stone e Woodcock 2014 essa situação indica um risco operacional comum a alocação de recursos para clientes de baixa rentabilidade o que reduz a eficiência da força de vendas e compromete o retorno dos investimentos comerciais Essa leitura prática do gráfico permite estabelecer critérios objetivos de priorização entre os clusters alinhando estratégias comerciais ao potencial real de cada grupo Clusters com alto LTV e CAC sob controle podem ser acompanhados por executivos de contas e programas de fidelização Já os grupos menos rentáveis podem ser atendidos por meio de canais automatizados suporte digital e propostas padronizadas reduzindo custos sem comprometer a cobertura de mercado Em síntese a análise conjunta de LTV e CAC valida não apenas a eficácia técnica do agrupamento mas também traduz os resultados em recomendações estratégicas de aplicação imediata Essa integração entre mineração de dados e gestão comercial assegura maior racionalidade na alocação de recursos melhora o retorno sobre os investimentos e contribui diretamente para o aumento da lucratividade da base de clientes STONE WOODCOCK 2014 KOTLER KELLER 2012 95 96 RESULTADOS Após o processamento completo dos dados e a aplicação do algoritmo KMeans o conjunto de clientes foi segmentado em cinco clusters bem definidos cada um caracterizado por perfis financeiros e operacionais distintos Essa segmentação permitiu revelar padrões relevantes que sustentam decisões mais estratégicas em termos de priorização de clientes personalização de ofertas estruturação de pacotes de serviços e planejamento de ações de relacionamento de longo prazo Essa abordagem está alinhada com os princípios defendidos por Stone e Woodcock 2014 que destacam a importância do uso de técnicas de agrupamento para tornar a gestão de clientes mais eficiente e personalizada O Cluster 0 emergiu como o grupo mais expressivo em termos financeiros apresentando um faturamento médio superior a R 63 bilhões e um LTV estimado em aproximadamente R 756 bilhões Notavelmente o CAC médio para conquistar ou manter clientes desse grupo foi de apenas R 307844 valor muito próximo ao dos clusters de menor retorno Esse resultado confirma a ideia de retorno elevado sobre investimento uma vez que contas estratégicas com alto potencial de receita justificam abordagens mais robustas de relacionamento e investimento consultivo KOTLER KELLER 2012 Portanto a recomendação é que o time comercial priorize esse cluster com estratégias de fidelização personalizadas atendimento dedicado e construção de relacionamentos de longo prazo Em contraposição o Cluster 1 agrega empresas com faturamento médio de R 34 milhões e LTV aproximado de R 41 milhões mas cujo CAC médio R 305060 praticamente se iguala ao do Cluster 0 Com uma média de 83 funcionários por empresa essas organizações são em geral de pequeno porte Como sugerem Kotler e Keller 2012 clientes de baixo valor devem ser atendidos com soluções automatizadas e de menor custo operacional evitando onerar o processo comercial com abordagens consultivas não rentáveis De forma semelhante o Cluster 2 também apresenta faturamento médio de R 338 milhões e LTV de cerca de R 406 milhões com um CAC de R 288247 No entanto distinguese pelo maior porte médio das empresas com aproximadamente 284 funcionários Esse perfil indica operações mais estruturadas porém com margens potencialmente mais estreitas Para esse tipo de segmento Stone e Woodcock 2014 recomendam a adoção de estratégias escaláveis como vendas em massa propostas automatizadas e menor envolvimento da equipe de campo maximizando a eficiência operacional O Cluster 3 por sua vez apresenta um perfil intermediário entre valor e estrutura As empresas desse grupo possuem um faturamento médio de R 156 milhões com LTV estimado de R 187 milhões além de um CAC de R 281356 o mais baixo entre todos os clusters A média de 1082 funcionários sugere uma base com alto grau de maturidade operacional Essa combinação reforça a hipótese de que clientes com processos internos mais robustos tendem a ter maior permanência e recorrência o que justifica investimentos em programas de crosssell e suporte contínuo KOTLER KELLER 2012 97 Já o Cluster 4 apresenta um perfil médio com faturamento de R 196 milhões LTV de R 235 milhões e CAC de R 305990 Com uma estrutura organizacional mais enxuta 203 funcionários em média esse grupo demonstra potencial para a adoção de pacotes modulares e escaláveis permitindo adequação das soluções ofertadas conforme o crescimento ou sazonalidade do cliente o que pode maximizar margem e flexibilidade comercial STONE WOODCOCK 2014 A comparação entre os clusters permite destacar um princípio estratégico essencial os grupos que combinam alto LTV com CAC controlado devem ser priorizados nas ações comerciais e nos investimentos de relacionamento pois apresentam o maior retorno por esforço investido Em contrapartida clusters de baixo LTV com CAC semelhante aos demais exigem atenção pois tendem a representar menor rentabilidade e portanto devem ser atendidos com modelos mais automatizados e enxutos KOTLER KELLER 2012 Além disso conforme verificado na matriz de correlação apresentada anteriormente não há relação direta entre a quantidade de funcionários e o faturamento das empresas reforçando a importância de considerar múltiplos critérios na segmentação A simples análise de uma variável isolada pode gerar interpretações equivocadas enquanto a análise combinada permite identificar padrões mais representativos da realidade dos clientes Por fim para facilitar o entendimento por parte dos gestores e permitir uma visão mais prática e orientada à tomada de decisão recomendase a construção de um quadro resumo com as médias de Faturamento LTV CAC e Funcionários por cluster Essa síntese gráfica pode servir como base objetiva para definir prioridades comerciais desenvolver planos de ação e otimizar os recursos destinados a cada perfil de cliente Tabela 1 Resumo dos clusters com métricas médias de negócio Cluster Faturamento Médio R LTV Médio R CAC Médio R Funcionários Médios 0 630000000 0 75600 00000 307844 233 1 34000000 41000 000 305060 83 2 33800000 40600 000 288247 284 3 156000000 187000 000 281356 1082 4 196000000 235000 000 305990 203 Em síntese os resultados obtidos demonstram que a segmentação proposta além de agrupar tecnicamente os clientes com base em critérios relevantes proporciona insights acionáveis e altamente úteis para a gestão 97 98 comercial da empresa A análise dos clusters permite uma compreensão aprofundada dos diferentes perfis da carteira subsidiando decisões como a priorização de atendimento a personalização de pacotes de serviços a alocação mais racional dos recursos comerciais e a otimização dos investimentos em aquisição de novos clientes Esse alinhamento entre análise de dados e aplicação prática é essencial para garantir que as estratégias de marketing e vendas resultem em retorno financeiro efetivo Kotler e Keller 2012 ressaltam que o sucesso na gestão de clientes depende justamente da capacidade de transformar dados em ações concretas de relacionamento e retenção indo além da simples análise descritiva Além disso conforme reforçado por Stone e Woodcock 2014 a utilização de técnicas de clusterização aliada a métricas estratégicas de negócio como o CAC e o LTV representa uma das abordagens mais eficazes para assegurar que a segmentação contribua diretamente para o aumento da lucratividade da empresa Ao identificar grupos de alto valor com custos controlados de aquisição a organização pode direcionar seus esforços de forma mais inteligente promovendo a fidelização das contas mais relevantes e assegurando um crescimento sustentável da base de clientes DISCUSSÃO A análise realizada neste estudo evidencia de maneira inequívoca a relevância da segmentação de clientes por meio de técnicas de clusterização como uma estratégia eficaz para otimizar o processo comercial em ambientes B2B Em mercados corporativos caracterizados por ciclos de venda mais longos e custos elevados de aquisição compreender profundamente os perfis de clientes tornase uma exigência para a alocação eficiente de recursos e maximização do retorno sobre o investimento KOTLER KELLER 2012 Ao agrupar os clientes com base em variáveis significativas como faturamento porte operacional e métricas simuladas de desempenho foi possível identificar padrões que não apenas orientam a priorização comercial mas também fundamentam ações práticas como definição de pacotes de serviço políticas de precificação e estratégias de fidelização O Cluster 0 por exemplo se destacou com um perfil de altíssimo faturamento e LTV elevado mantendo um CAC compatível com os demais grupos Esse tipo de insight conforme argumentam Stone e Woodcock 2014 é essencial para estratégias de atendimento personalizado em que visitas presenciais suporte dedicado e programas de retenção se tornam investimentos estratégicos e não apenas custos operacionais Outro ponto fundamental revelado é que a clusterização deve ser entendida como um processo dinâmico e não estático Han Kamber e Pei 2012 destacam que à medida que o ambiente de negócios se transforma os perfis dos clientes também evoluem exigindo a reavaliação contínua dos agrupamentos Neste contexto a inclusão de variáveis comportamentais mesmo que simuladas como o desempenho do cliente reforça a importância de incorporar indicadores 99 atualizáveis que captem mudanças relevantes seja no volume de compras nos atrasos de pagamento ou na expansão da operação A adoção de ferramentas de monitoramento contínuo como dashboards interativos alertas gerenciais e relatórios periódicos é fortemente recomendada por Kotler e Keller 2012 como forma de garantir que a segmentação permaneça aderente à realidade da carteira e ao ciclo de vida de cada cliente Isso eleva a maturidade da inteligência comercial da organização transformando dados em decisões estratégicas com impacto direto nas receitas Do ponto de vista metodológico o modelo proposto mostrase robusto ao articular etapas consolidadas da mineração de dados incluindo a limpeza transformação análise exploratória aplicação do algoritmo KMeans e validação com o método do cotovelo com a simulação de métricas relevantes como o Custo de Aquisição de Clientes CAC e o Lifetime Value LTV A integração entre técnicas estatísticas e indicadores de negócio transforma o modelo em uma ferramenta aplicável à realidade de qualquer equipe de vendas orientada por dados TAN STEINBACH KUMAR 2019 Embora o estudo tenha sido aplicado a uma base de empresas do setor de cobrança o framework desenvolvido possui alta capacidade de replicação em outros segmentos B2B como tecnologia serviços especializados consultorias e indústrias A adaptação requer apenas a seleção criteriosa de variáveis que representem o comportamento do cliente no respectivo mercado STONE WOODCOCK 2014 Concluise portanto que a segmentação de clientes baseada em clusterização quando combinada a indicadores financeiros e operacionais constitui uma poderosa ferramenta de apoio à tomada de decisão estratégica Ao permitir a personalização do relacionamento comercial otimizar os investimentos em prospecção e fidelização e alinhar os esforços ao potencial de cada cliente essa abordagem contribui para a construção de uma base sólida rentável e escalável em consonância com os objetivos de longo prazo das organizações modernas CONCLUSÃO Este trabalho teve como principal objetivo demonstrar de forma prática e aplicada como a clusterização de clientes pode constituir uma ferramenta robusta para aprimorar a gestão comercial de empresas B2B Alinhado às recomendações de Kotler e Keller 2012 que destacam a segmentação como base para estratégias de marketing direcionadas o estudo estruturou a segmentação a partir de variáveis de fácil obtenção como Faturamento e Quantidade de Funcionários complementadas por métricas simuladas de alta relevância gerencial como o Lifetime Value LTV e o Custo de Aquisição de Clientes CAC conforme preconizado por Stone e Woodcock 2014 99 100 A metodologia seguiu um fluxo completo e sistemático que envolveu desde a seleção e limpeza da base de dados até a transformação de variáveis análise estatística aplicação do algoritmo KMeans e validação com o método do cotovelo e o coeficiente de Silhouette conforme indicado por Han Kamber e Pei 2012 O processo resultou em cinco clusters coerentes revelando diferenças claras entre os grupos quanto à receita potencial estrutura operacional e esforço de aquisição Um dos principais achados foi a constatação de que o número de funcionários não é isoladamente um bom preditor de faturamento reforçando a necessidade de múltiplos critérios na construção de segmentações mais precisas TAN STEINBACH KUMAR 2019 A análise revelou também que mesmo com um conjunto reduzido de variáveis técnicas acessíveis de mineração de dados são capazes de gerar insights práticos e relevantes para a tomada de decisão Como destacam Stone e Woodcock 2014 é fundamental que a abordagem comercial leve em conta o retorno esperado de cada perfil de cliente clusters com alto LTV devem receber estratégias de relacionamento consultivo enquanto grupos com baixo retorno relativo requerem abordagens automatizadas e de baixo custo para preservar a rentabilidade Outro diferencial importante foi a inclusão da variável simulada de Desempenho do Cliente o que abre espaço para a evolução do modelo em ambientes reais de CRM dinâmico incorporando indicadores de engajamento churn satisfação ou ciclo de vida Essa perspectiva está em consonância com a orientação de Kotler e Keller 2012 quanto à necessidade de adaptação contínua das estratégias de relacionamento Recomendase nesse sentido a adoção de painéis automatizados dashboards e ciclos periódicos de atualização da segmentação para acompanhar as mudanças no perfil e no comportamento dos clientes ao longo do tempo HAN KAMBER PEI 2012 A versatilidade da abordagem proposta também se destaca Embora aplicada a uma base de empresas do setor de cobrança a estrutura metodológica é replicável a outros segmentos B2B como tecnologia consultorias ou indústrias bastando adequar as variáveis de entrada conforme a natureza do públicoalvo e os objetivos do negócio STONE WOODCOCK 2014 Concluise portanto que a clusterização apresentada nesta dissertação oferece uma metodologia prática replicável e adaptável capaz de entregar resultados significativos em termos de direcionamento estratégico Ao permitir a identificação de contas de maior potencial redução do CAC aumento do LTV médio e otimização do funil de vendas o modelo contribui não apenas para ganhos imediatos de eficiência e lucratividade mas também para a construção de uma estratégia de crescimento sustentável fundamentada em inteligência de dados KOTLER KELLER 2012 TAN STEINBACH KUMAR 2019 Os resultados obtidos fortalecem tanto a contribuição teórica quanto a aplicabilidade prática do estudo oferecendo às organizações um guia realista e orientado a dados para decisões mais eficientes e competitivas no ambiente corporativo atual 101 REFERÊNCIAS BIBLIOGRÁFICAS AFINITI V P A new approach to proportional hazards modeling for estimating customer lifetime value 2022 BARAN R J GALKA R J STRUNK D P CRM the foundations of contemporary marketing strategy Londres Routledge 2013 BAUER J JANNACH D Improved customer lifetime value prediction with sequencetosequence learning and featurebased models ACM Transactions on Knowledge Discovery from Data v 15 n 5 2021 BERGER P D NASR N I Customer lifetime value marketing models and applications Journal of Interactive Marketing v 12 n 1 p 1730 Winter 1998 BREIMAN L Random forests Machine Learning Dordrecht Springer 2001 BURELLI P Predicting customer lifetime value in freetoplay games 2019 CAO Y RUSMEVICHIENTONG P TOPALOGLU H Revenue management under a mixture of independent demand and multinomial logit models Operations Research v 71 n 2 p 603625 2023 CHENG H CHEN Y Classification of the risk levels of heart disease using a hybrid data mining approach In Proceedings of the International Multiconference of Engineers and Computer Scientists v 1 2009 CUMPS B et al Inferring comprehensible business ICT alignment rules Information Management v 46 n 2 p 116124 2009 DOI 101016jim200805005 DAHANA W D MIWA Y MORISADA M Linking lifestyle to customer lifetime value an exploratory study in an online fashion retail market Journal of Business Research v 99 p 319331 2019 DO C B BATZOGLOU S What is the expectation maximization algorithm Nature Biotechnology v 26 n 8 p 897899 2008 DOMINGOS P The master algorithm Basic Books 2015 101 102 EKSTRAND M D RIEDL J T KONSTAN J A Collaborative filtering recommender systems Foundations and Trends in HumanComputer Interaction v 4 n 2 p 81173 2010 ESTER M et al A densitybased algorithm for discovering clusters in large spatial databases with noise In Proceedings of the Second International Conference on Knowledge Discovery and Data Mining Portland AAAI Press 1996 p 226231 FARRIS P W et al Marketing metrics the definitive guide to measuring marketing performance Londres Pearson 2020 FAYYAD U PIATETSKYSHAPIRO G SMYTH P From data mining to knowledge discovery in databases AI Magazine v 17 n 3 p 3754 1996 FIELD A MILES J FIELD Z Discovering statistics using R 2 ed London Sage 2017 HAIR J F et al Multivariate data analysis 7 ed Upper Saddle River NJ Prentice Hall 2009 HAN J KAMBER M PEI J Data mining concepts and techniques 3 ed Waltham Morgan Kaufmann 2011 HARRIS C R et al Array programming with NumPy Nature v 585 n 7825 p 357362 2020 HÖPPNER S et al Profit driven decision trees for churn prediction European Journal of Operational Research 2018 Disponível em httpswwwelseviercomlocateejor Acesso em 21 jul 2024 HUANG M RUST R T Engaged to a robot The role of AI in service Journal of Service Research v 23 p 97113 2020 HUNTER J D Matplotlib a 2D graphics environment Computing in Science Engineering v 9 n 3 p 9095 2007 JASEK P et al Comparative analysis of selected probabilistic customer lifetime value models in online shopping Journal of Business Economics and Management v 20 n 3 p 398423 2019 KABACOFF R R in action data analysis and graphics with R 3 ed Shelter Island Manning 2021 KANCHANAPOOM K CHONGWATPOL J Integrated customer lifetime value CLV and customer migration model to improve customer segmentation Journal of Marketing Analytics 2022 Disponível em httpslinkspringercomarticle101057s41270022001587 Acesso em 22 jan 2024 103 KANCHANAPOOM K CHONGWATPOL J Integrated customer lifetime value models to support marketing decisions in the complementary and alternative medicine industry Benchmarking 2023 KELLER K L Strategic brand management building measuring and managing brand equity Londres Pearson 2014 KOTLER P KELLER K L Administração de marketing 12 ed São Paulo Pearson Prentice Hall 2006 KRISHNAMURTHY R DESHPANDE P Data visualization with Python 2 ed Birmingham Packt 2022 KUMAR A et al Customer lifetime value prediction using machine learning to forecast CLV and enhance customer relationship management In 7th International Symposium on Multidisciplinary Studies and Innovative Technologies ISMSIT IEEE 2023 KUMAR V Managing customers for profit strategies to increase profits and build loyalty Philadelphia Wharton School Publishing 2018 KUMAR V DIXIT A JAVALGI R G DASS M Relationship marketing in the digital age concepts practices and perspectives Journal of Marketing Management v 36 p 216244 2020 LAROCHELLE H et al Interpretable machine learning decision trees and beyond MIT Press 2022 LI K et al Billionuser customer lifetime value prediction an industrialscale solution from Kuaishou In Proceedings of the International Conference on Information and Knowledge Management Association for Computing Machinery 2022 p 3243 3251 LUNDBERG S M LEE SI A unified approach to interpreting model predictions NeurIPS 2020 MALHOTRA N K Marketing research an applied orientation 5 ed Upper Saddle River NJ Pearson Prentice Hall 2006 MATPLOTLIB Documentação oficial do Matplotlib Disponível em httpsmatplotliborg Acesso em 16 jul 2024 MCDONALD M DUNBAR I Market segmentation how to do it and how to profit from it John Wiley Sons 2012 MCKINNEY W Python for data analysis 3 ed OReilly 2022 MCKINNEY W Data structures for statistical computing in Python In Proceedings of the 9th Python in Science Conference 2010 103 104 MINTZBERG H AHLSTRAND B LAMPEL J Safari de estratégia um roteiro pela selva do planejamento estratégico 2 ed Porto Alegre Bookman 2010 MISSINGNO Repositório oficial do Missingno no GitHub Disponível em httpsgithubcomResidentMariomissingno Acesso em 16 jul 2024 MOLNAR C Interpretable machine learning 2 ed 2022 Disponível em httpschristophmgithubiointerpretablemlbook NATIONAL ACADEMIES OF SCIENCES Data science for undergraduates consensus study report Washington The National Academies Press 2021 NIJKAMP P Multivariate analysis in practice the application of statistical methods Berlin SpringerVerlag 1999 NUMPY Documentação oficial do NumPy Disponível em httpsnumpyorg Acesso em 16 jul 2024 OLIVEIRA D P R Planejamento estratégico conceitos metodologia e práticas 34 ed São Paulo Atlas 2018 OLNÉN J Customer lifetime value maximizing profitability through customer loyalty Business Insights Press 2022 PAGANO M GAUVREAU K Principles of biostatistics 2 ed Boca Raton CRC Press 2018 PANDAS Documentação oficial do Pandas Disponível em httpspandaspydataorg Acesso em 16 jul 2024 PAYNE A FROW P Strategic customer management integrating relationship marketing and CRM Cambridge Cambridge University Press 2017 PEDREGOSA F et al Scikitlearn machine learning in Python Journal of Machine Learning Research v 12 p 28252830 2011 POLLAK Z Predicting customer lifetime value ecommerce use case 2021 POLLAK Z Deep learning applications in customer lifetime value prediction Data Science Journal v 20 2021 QUINLAN J R Induction of decision trees Machine Learning v 1 n 1 p 81106 1986 REZAEINIA S M RAHMANI R Recommender system based on customer segmentation RSCS Kybernetes v 45 n 6 p 946961 2016 RIEDL J KONSTAN J A HumanComputer Interaction Handbook fundamentals evolving technologies and emerging applications In JACKO J A ed 3 ed Boca Raton CRC Press 2011 105 RUMELHART D E HINTON G E WILLIAMS R J Learning representations by backpropagating errors Nature v 323 n 6088 p 533536 1986 RUST R T LEMON K N ZEITHAML V A Return on marketing using customer equity to focus marketing strategy Journal of Marketing v 68 n 1 p 109127 2004 SCIKITLEARN Documentação oficial do Scikitlearn Disponível em httpsscikit learnorgstable Acesso em 16 jul 2024 SEABORN Documentação oficial do Seaborn Disponível em httpsseabornpydataorg Acesso em 16 jul 2024 STONE M et al SCHEMA information on marketing and customer engagement performance reality versus dreams The Bottom Line 2019 Accepted DOI 101108BL0220190065 SU H et al Crossdomain adaptative learning for online advertisement customer lifetime value prediction 2023 TAN P N STEINBACH M KUMAR V Introduction to data mining 2 ed Harlow Pearson 2019 THOMAS R J Multistage market segmentation an exploration of B2B segment alignment Journal of Business and Industrial Marketing v 31 n 7 p 821834 2016 THOMPSON B Exploratory and confirmatory factor analysis understanding concepts and applications Washington DC American Psychological Association 2004 TIMES HIGHER EDUCATION World university rankings 2023 data science and analytics 2023 Disponível em httpswwwtimeshighereducationcom VANDERPLAS J Python data science handbook essential tools for working with data 1 ed Sebastopol OReilly Media 2016 VERBEKE W MARTENS D BAESENS B Building comprehensible customer churn prediction models with advanced rule induction techniques Expert Systems with Applications v 38 n 3 p 23542364 2011 VERHOEVEN D PESCH T CAO Y Utilizing genetic algorithms for revenue management optimization Journal of Revenue and Pricing Management v 22 n 3 p 245265 2023 WANG X LIU T MIAO J A deep probabilistic model for customer lifetime value prediction 2019 Disponível em httparxivorgabs191207753 WASKOM M et al Missingno a missing data visualization suite 2020 Disponível em httpsgithubcomResidentMariomissingno 105 106 WASKOM M L et al Seaborn statistical data visualization Journal of Open Source Software v 5 n 51 p 3021 2020 DOI 1021105joss03021 WASSERMAN L All of statistics a concise course in statistical inference 2 ed New York Springer 2020 WICKHAM H GROLEMUND G R for data science Sebastopol OReilly 2017 WIN T T BO K S Predicting customer class using customer lifetime value with random forest algorithm In International Conference on Advanced Information Technologies ICAIT IEEE 2020 p 236241 WU C et al Contrastive multiview framework for customer lifetime value prediction Proceedings of the ACM Web Conference p 24002408 2023 XIE Y et al Customer churn prediction using improved balanced random forests Expert Systems with Applications v 120 p 239250 2019 DOI 101016jeswa201811030 ZHANG Z ZHAO Y HUZHANG G Exploit customer lifetime value with memoryless experiments 2022 Disponível em httparxivorgabs220106254 ZUUR A F IENO E N ELPHICK C S A protocol for data exploration to avoid common statistical problems Methods in Ecology and Evolution v 10 n 1 p 170 181 2019 pip install pandas numpy matplotlib seaborn scikitlearn Requirement already satisfied pandas in usrlocallibpython311distpackages 222 Requirement already satisfied numpy in usrlocallibpython311distpackages 202 Requirement already satisfied matplotlib in usrlocallibpython311distpackages 3100 Requirement already satisfied seaborn in usrlocallibpython311distpackages 0132 Requirement already satisfied scikitlearn in usrlocallibpython311distpackages 161 Requirement already satisfied pythondateutil282 in usrlocallibpython311distpackages from pandas 290post0 Requirement already satisfied pytz20201 in usrlocallibpython311distpackages from pandas 20252 Requirement already satisfied tzdata20227 in usrlocallibpython311distpackages from pandas 20252 Requirement already satisfied contourpy101 in usrlocallibpython311distpackages from matplotlib 132 Requirement already satisfied cycler010 in usrlocallibpython311distpackages from matplotlib 0121 Requirement already satisfied fonttools4220 in usrlocallibpython311distpackages from matplotlib 4582 Requirement already satisfied kiwisolver131 in usrlocallibpython311distpackages from matplotlib 148 Requirement already satisfied packaging200 in usrlocallibpython311distpackages from matplotlib 242 Requirement already satisfied pillow8 in usrlocallibpython311distpackages from matplotlib 1121 Requirement already satisfied pyyaml231 in usrlocallibpython311distpackages from matplotlib 323 Requirement already satisfied scipy160 in usrlocallibpython311distpackages from scikitlearn 1153 Requirement already satisfied joblib120 in usrlocallibpython311distpackages from scikitlearn 151 Requirement already satisfied threadpoolctl310 in usrlocallibpython311distpackages from scikitlearn 360 Requirement already satisfied six15 in usrlocallibpython311distpackages from pythondateutil282pandas 1170 import pandas as pd import numpy as np import matplotlibpyplot as plt import seaborn as sns from sklearncluster import KMeans from sklearnpreprocessing import StandardScaler from sklearnmetrics import silhouettescore filepaths contentBaseListaLeads55Mvs2xlsx contentcluster0csv contentbaseleadsxlsx contentbaseleadsokxlsx Dicionário para guardar os DataFrames dataframes for path in filepaths if pathendswithxlsx df pdreadexcelpath elif pathendswithcsv df pdreadcsvpath sep tenta sep pois deu erro com else continue dataframespathsplit1 df Verificar quais foram carregados printfArquivos carregados listdataframeskeys Arquivos carregados BaseListaLeads55Mvs2xlsx cluster0csv baseleadsxlsx baseleadsokxlsx Ver resumo de cada DataFrame for name df in dataframesitems printf name printdfinfo printdfhead3 print BaseListaLeads55Mvs2xlsx class pandascoreframeDataFrame RangeIndex 55039 entries 0 to 55038 Data columns total 42 columns Column NonNull Count Dtype 0 55038 55039 nonnull object 1 Unnamed 1 55039 nonnull object 2 Unnamed 2 55039 nonnull object 3 Unnamed 3 55039 nonnull object 4 Unnamed 4 55039 nonnull object 5 Unnamed 5 55039 nonnull object 6 Unnamed 6 55039 nonnull object 7 Unnamed 7 55039 nonnull object 8 R Recorrência 55039 nonnull object 9 Unnamed 9 55039 nonnull object 10 Unnamed 10 55039 nonnull object ANEXOS 11 Unnamed 11 55039 nonnull object 12 Unnamed 12 55039 nonnull object 13 Unnamed 13 55039 nonnull object 14 Unnamed 14 55039 nonnull object 15 Unnamed 15 55039 nonnull object 16 Unnamed 16 55039 nonnull object 17 Unnamed 17 55039 nonnull object 18 Unnamed 18 55039 nonnull object 19 Unnamed 19 55039 nonnull object 20 Unnamed 20 54509 nonnull object 21 Unnamed 21 55039 nonnull object 22 17027 55039 nonnull object 23 3186 55039 nonnull object 24 14310 55039 nonnull object 25 6082 55039 nonnull object 26 Unnamed 26 55039 nonnull object 27 Unnamed 27 55010 nonnull object 28 Unnamed 28 55039 nonnull object 29 Unnamed 29 55039 nonnull object 30 Unnamed 30 55039 nonnull object 31 Unnamed 31 55039 nonnull object 32 Unnamed 32 55039 nonnull object 33 Unnamed 33 55039 nonnull object 34 Unnamed 34 55039 nonnull object 35 Unnamed 35 55033 nonnull object 36 Unnamed 36 55033 nonnull object 37 Unnamed 37 54859 nonnull object 38 Unnamed 38 55039 nonnull object 39 Unnamed 39 9272 nonnull object 40 Unnamed 40 11969 nonnull object 41 Unnamed 41 55039 nonnull object dtypes object42 memory usage 176 MB None 55038 Unnamed 1 Unnamed 2 0 CodEmp CodCNAE CNAEs 1 100000166 4110700 4110700 Incorporação de empreendimentos imob 2 100000172 7112000 7112000 Serviços de engenharia Unnamed 3 Unnamed 4 Unnamed 5 Unnamed 6 0 SegmentoCO SegmentoGL SubsegGL CodGr 1 ENGENHARIACONSTRUÇÃO CONSTRUCAO E PROJETOS INCORPORADORA 0 2 SERVIÇOS SERVICOS ENGENHARIA 0 Unnamed 7 R Recorrência Unnamed 9 0 StatusGr M1 M2 1 0 0 0 2 0 0 0 Unnamed 33 Unnamed 32 0 CNAEs Secundários Cidade 1 41204005223100646200068102036822600 Brasilia 2 8020001771100077390997020400731900462023 Sao Bernardo Do Campo Unnamed 34 Unnamed 35 Unnamed 36 Unnamed 37 0 Estado Microregião Mesoregião QuantFuncionarios 1 DF Brasília Distrito Federal 117 2 SP São Paulo Metropolitana de São Paulo 50 Unnamed 38 Unnamed 39 Unnamed 40 Unnamed 41 0 Natureza Jurídica Exportador Importador 1 1 NaN NaN 2 1 NaN NaN 3 rows x 42 columns cluster0csv class pandascoreframeDataFrame RangeIndex 2799 entries 0 to 2798 Data columns total 25 columns Column NonNull Count Dtype 0 CodEmp 2799 nonnull int64 1 CodCNAE 2799 nonnull int64 2 CNAEs 2799 nonnull object 3 SegmentoCO 2766 nonnull object 4 SegmentoGL 2766 nonnull object 5 SubsegGL 2766 nonnull object 6 CodGr 2766 nonnull float64 7 StatusGr 2766 nonnull object 8 PDPrior 2766 nonnull object 9 FatPres 2766 nonnull float64 10 TitDevs 2766 nonnull float64 11 Porte 2766 nonnull object 12 Situação 2766 nonnull object 13 NívelAtiv 2766 nonnull object 14 RiscoInad 2766 nonnull object 15 CNAEs Secundários 2766 nonnull object 16 Cidade 2766 nonnull object 17 Estado 2766 nonnull object 18 Microregião 2766 nonnull object 19 Mesoregião 2766 nonnull object 20 QuantFuncionarios 2766 nonnull float64 21 Natureza Jurídica 2766 nonnull float64 22 Exportador 2766 nonnull object 23 Importador 2766 nonnull object 24 cluster 2766 nonnull float64 dtypes float646 int642 object17 memory usage 5468 KB None CNAEs CodEmp CodCNAE 0 100020648 5911199 5911199 Atividades de produção cinematográfi 1 100022630 5920100 5920100 Atividades de gravação de som e de e 2 100060378 4930202 4930202 Transporte rodoviário de carga exce SegmentoCO SegmentoGL SubsegGL CodGr StatusGr PDPrior 0 COMUNICAÇÃO SERVICOS COMUNICACAO 00 0 SI 1 COMUNICAÇÃO SERVICOS COMUNICACAO 00 0 SI 2 LOGISTICATRANSPORTE LOGISTICA TRANSPORTADOR 00 0 SI FatPres CNAEs Secundários 0 224000000 591110259138005920100 1 121250000 464940759111997311400 2 172300000 773909946630007820500773220149230024330404 Cidade Estado Microregião 0 Sao Paulo SP São Paulo 1 Sao Paulo SP São Paulo 2 Sao Joao Da Barra RJ Campos dos Goytacazes Mesoregião QuantFuncionarios Natureza Jurídica Exportador 0 Metropolitana de São Paulo 820 10 Não 1 Metropolitana de São Paulo 570 10 Não 2 Norte Fluminense 510 10 Não Importador cluster 0 Não 00 1 Não 00 2 Não 00 3 rows x 25 columns baseleadsxlsx class pandascoreframeDataFrame RangeIndex 55038 entries 0 to 55037 Data columns total 24 columns Column NonNull Count Dtype 0 CodEmp 55038 nonnull int64 1 CodCNAE 55038 nonnull int64 2 CNAEs 55038 nonnull object 3 SegmentoCO 55038 nonnull object 4 SegmentoGL 55038 nonnull object 5 SubsegGL 55038 nonnull object 6 CodGr 55038 nonnull int64 7 StatusGr 55038 nonnull object 8 PDPrior 55038 nonnull object 9 FatPres 55038 nonnull int64 10 TitDevs 55038 nonnull int64 11 Porte 55038 nonnull object 12 Situação 55038 nonnull object 13 NívelAtiv 55038 nonnull object 14 RiscoInad 55038 nonnull object 15 CNAEs Secundários 55038 nonnull object 16 Cidade 55038 nonnull object 17 Estado 55038 nonnull object 18 Microregião 55032 nonnull object 19 Mesoregião 55032 nonnull object 20 QuantFuncionarios 54858 nonnull float64 21 Natureza Jurídica 55038 nonnull int64 22 Exportador 9271 nonnull object 23 Importador 11968 nonnull object dtypes float641 int646 object17 memory usage 101 MB None CNAEs CodEmp CodCNAE 0 100000166 4110700 4110700 Incorporação de empreendimentos imob 1 100000172 7112000 7112000 Serviços de engenharia 2 100000424 7311400 7311400 Agências de publicidade SegmentoCO SegmentoGL SubsegGL CodGr 0 ENGENHARIACONSTRUÇÃO CONSTRUCAO E PROJETOS INCORPORADORA 0 1 SERVIÇOS SERVICOS ENGENHARIA 0 2 SERVIÇOS SERVICOS MARKETING 0 StatusGr PDPrior FatPres RiscoInad 0 0 SI 12125000 Muito baixo 1 0 SI 22400000 Muito baixo 2 0 SI 12125000 Muito baixo CNAEs Secundários Cidade 0 41204005223100646200068102036822600 Brasilia 1 8020001771100077390997020400731900462023 Sao Bernardo Do Campo 2 Sao Paulo Estado Microregião Mesoregião QuantFuncionarios 0 DF Brasília Distrito Federal 1170 1 SP São Paulo Metropolitana de São Paulo 500 2 SP São Paulo Metropolitana de São Paulo 760 Natureza Jurídica Exportador Importador 0 1 NaN NaN 1 1 NaN NaN 2 1 NaN NaN 3 rows x 24 columns baseleadsokxlsx class pandascoreframeDataFrame RangeIndex 1017 entries 0 to 1016 Data columns total 25 columns Column NonNull Count Dtype 0 4693100109610046184018292000469150046923 Sorocaba SP 1 Sao Paulo SP 2 3299005174190218130991731100749019946427 Blumenau SC Microregião Mesoregião QuantFuncionarios 0 Sorocaba Macro Metropolitana Paulista 2760 1 São Paulo Metropolitana de São Paulo 2710 2 Blumenau Vale do Itajaí 7670 Natureza Jurídica Exportador Importador 0 1 NaN Sim 1 1 NaN NaN 2 1 Sim Sim 3 rows x 25 columns Usar a base principal exemplo baseleadsokxlsx df dataframesbaseleadsokxlsx Visualizar resumo para confirmar printdfinfo printdfhead class pandascoreframeDataFrame RangeIndex 1017 entries 0 to 1016 Data columns total 25 columns Column NonNull Count Dtype 0 CodEmp 1017 nonnull int64 1 CodCNAE 1017 nonnull int64 2 CNAEs 1017 nonnull object 3 SegmentoCO 1017 nonnull object 4 SegmentoGL 1017 nonnull object 5 SubsegGL 1017 nonnull object 6 CodGr 1017 nonnull int64 7 StatusGr 1017 nonnull object 8 Target 1017 nonnull int64 9 PDPrior 1017 nonnull object 10 FatPres 1017 nonnull int64 11 TitDevs 1017 nonnull int64 12 Porte 1017 nonnull object 13 Situação 1017 nonnull object 14 NívelAtiv 1017 nonnull object 15 RiscoInad 1017 nonnull object 16 CNAEs Secundários 1017 nonnull object 17 Cidade 1017 nonnull object 18 Estado 1017 nonnull object 19 Microregião 1017 nonnull object 20 Mesoregião 1017 nonnull object 21 QuantFuncionarios 1016 nonnull float64 22 Natureza Jurídica 1017 nonnull int64 23 Exportador 407 nonnull object 24 Importador 493 nonnull object dtypes float641 int647 object17 memory usage 1988 KB None CNAEs CodEmp CodCNAE 0 100026910 1099699 1099699 Fabricação de outros produtos aliment 1 100028986 4329103 4329103 Instalação manutenção e reparação d 2 100056633 1414200 1414200 Fabricação de acessórios do vestuári 3 100074569 1122403 1122403 Fabricação de refrescos xaropes e p 4 100080671 1042200 1042200 Fabricação de óleos vegetais refinad SegmentoCO SegmentoGL SubsegGL CodGr 0 ALIMENTOSBEBIDAS ALIMENTOSBEBIDAS MANUFATURA 680 1 ENGENHARIACONSTRUÇÃO CONSTRUCAO E PROJETOS INSTALACAO 29 2 BENS DE CONSUMO TEXTIL E VESTUARIO MANUFATURA 1432 3 ALIMENTOSBEBIDAS ALIMENTOSBEBIDAS MANUFATURA 1503 4 ALIMENTOSBEBIDAS ALIMENTOSBEBIDAS MANUFATURA 1124 StatusGr Target PDPrior RiscoInad 0 INATIVO CHURN 0 2023 Baixo 1 ATIVO 1 2023 Muito baixo 2 INATIVO 0 2023 Muito baixo 3 ATIVO 1 2023 Muito baixo 4 ATIVO 1 2023 Muito baixo CNAEs Secundários Cidade Estado 0 4693100109610046184018292000469150046923 Sorocaba SP 1 Sao Paulo SP 2 3299005174190218130991731100749019946427 Blumenau SC 3 1033302109969911224021122499 Rio De Janeiro RJ 4 1415011041400106430010651011065102106510 Itumbiara GO Microregião Mesoregião QuantFuncionarios 0 Sorocaba Macro Metropolitana Paulista 2760 1 São Paulo Metropolitana de São Paulo 2710 2 Blumenau Vale do Itajaí 7670 3 Rio de Janeiro Metropolitana do Rio de Janeiro 2630 4 Meia Ponte Sul Goiano 2210 Natureza Jurídica Exportador Importador 0 1 NaN Sim 1 1 NaN NaN 2 1 Sim Sim 3 1 Sim Sim 4 1 Sim Sim 5 rows x 25 columns printdfcolumnstolist CodEmp CodCNAE CNAEs SegmentoCO SegmentoGL SubsegGL CodGr StatusGr Target PDPrior FatPres TitDevs Porte Situação NívelAtiv RiscoInad CNAEs Secundários Cidade Estado Microregião Mesoregião QuantFuncionarios Natureza Jurídica Exportador Importador Escolher features numéricas principais features FatPres QuantFuncionarios ajuste conforme os nomes exatos Remover linhas com valores ausentes nessas colunas dfclean dfdropnasubsetfeatures printfLinhas após remoção de nulos dfcleanshape Linhas após remoção de nulos 1016 25 Padronizar os dados scaler StandardScaler Xscaled scalerfittransformdfcleanfeatures Método do cotovelo inertia K range1 10 for k in K kmeans KMeansnclustersk randomstate42 kmeansfitXscaled inertiaappendkmeansinertia pltplotK inertia bx pltxlabelNúmero de Clusters pltylabelInertia plttitleMétodo do Cotovelo pltshow Silhouette Score opcional for k in range2 10 kmeans KMeansnclustersk randomstate42 labels kmeansfitpredictXscaled score silhouettescoreXscaled labels printfSilhouette Score para kk score4f Silhouette Score para k2 09641 Silhouette Score para k3 06453 Silhouette Score para k4 07280 Silhouette Score para k5 07616 Silhouette Score para k6 07602 Silhouette Score para k7 07618 Silhouette Score para k8 07721 Silhouette Score para k9 06502 Por exemplo 3 clusters kmeans KMeansnclusters3 randomstate42 dfcleanCluster kmeansfitpredictXscaled printdfcleanClustervaluecounts Cluster 2 546 0 468 1 2 Name count dtype int64 ipythoninput1511134421593 SettingWithCopyWarning A value is trying to be set on a copy of a slice from a DataFrame Try using locrowindexercolindexer value instead See the caveats in the documentation httpspandaspydataorgpandasdocsstableuserguideindexinghtmlreturningaviewversusacopy dfcleanCluster kmeansfitpredictXscaled snsscatterplot xdfcleanFatPres ydfcleanQuantFuncionarios huedfcleanCluster paletteSet1 plttitleClusters pltshow Se quiser carregar cluster0csv dfoldcluster dataframescluster0csv Ver exemplo de comparação printdfoldclusterhead CNAEs CodEmp CodCNAE 0 100022048 5911199 5911199 Atividades de produção cinematográfi 1 100022630 5920100 5920100 Atividades de gravação de som e de e 2 100060378 4930202 4930202 Transporte rodoviário de carga exce 3 100075032 7112000 7112000 Serviços de engenharia 4 100081993 729404 0729404 Extração de minérios de cobre chumb SegmentoCO SegmentoGL SubsegGL CodGr 0 COMUNICAÇÃO SERVICOS COMUNICACAO 0 00 1 COMUNICAÇÃO SERVICOS COMUNICACAO 00 2 LOGISTICATRANSPORTE LOGISTICA TRANSPORTADOR 00 3 SERVIÇOS SERVICOS ENGENHARIA 00 4 MINERADORA MANUFATURA EXTRATIVISTA E BENEFICIAMENTO 00 StatusGr PDPrior FatPres 0 0 SI 224000000 1 0 SI 121250000 2 0 SI 172300000 3 0 SI 121250000 4 0 SI 172300000 CNAEs Secundários Cidade 0 591110259138005920100 Sao Paulo 1 464940759111997311400 Sao Paulo 2 773909946630007820500773220149230024330404 Sao Joao Da Barra 3 Rio De Janeiro 4 990402 Tunas Do Parana Estado Microregião Mesoregião 0 SP São Paulo Metropolitana de São Paulo 1 SP São Paulo Metropolitana de São Paulo 2 RJ Campos dos Goytacazes Norte Fluminense 3 RJ Rio de Janeiro Metropolitana do Rio de Janeiro 4 PR Curitiba Metropolitana de Curitiba QuantFuncionarios Natureza Jurídica Exportador Importador cluster 0 820 10 Não Não 00 1 570 10 Não Não 00 2 510 10 Não Não 00 3 190 10 Não Não 00 4 930 10 Não Não 00 5 rows x 25 columns Adicionar coluna log do faturamento import numpy as np dfcleanlogFatPres nplog1pdfcleanFatPres log1 x evita log0 Verificar nova feature dfcleanFatPres logFatPreshead ipythoninput1836515223294 SettingWithCopyWarning A value is trying to be set on a copy of a slice from a DataFrame Try using locrowindexercolindexer value instead See the caveats in the documentation httpspandaspydataorgpandasdocsstableuserguideindexinghtmlreturningaviewversusacopy dfcleanlogFatPres nplog1pdfcleanFatPres log1 x evita log0 summary name dfcleanFatPres logFatPres rows 5 fields column FatPres properties dtype number std 744129731 min 56700000 max 1500000000 numuniquevalues 3 samples 236000000 1500000000 56700000 semantictype description column logFatPres properties dtype number std 14913081035777738 min 17853284786334665 max 2112873094572124 numuniquevalues 3 samples 19279342367227173 2112873094572124 17853284786334665 semantictype description typedataframe features logFatPres QuantFuncionarios Remover nulos deve estar ok Xscaled scalerfittransformdfcleanfeatures Elbow Method com logFatPres inertia K range1 10 for k in K kmeans KMeansnclustersk randomstate42 kmeansfitXscaled inertiaappendkmeansinertia pltplotK inertia bx pltxlabelNúmero de Clusters pltylabelInertia plttitleMétodo do Cotovelo logFatPres pltshow Silhouette Score for k in range2 10 kmeans KMeansnclustersk randomstate42 labels kmeansfitpredictXscaled score silhouettescoreXscaled labels printfSilhouette Score para kk score4f Método do Cotovelo logFatPres Silhouette Score para k2 04400 Silhouette Score para k3 04714 Silhouette Score para k4 04070 Silhouette Score para k5 04442 Silhouette Score para k6 04253 Silhouette Score para k7 04320 Silhouette Score para k8 04527 Silhouette Score para k9 04677 Novo clustering usando logFatPres kmeans KMeansnclusters5 randomstate42 dfcleanCluster kmeansfitpredictXscaled ipythoninput2133513388583 SettingWithCopyWarning A value is trying to be set on a copy of a slice from a DataFrame Try using locrowindexercolindexer value instead See the caveats in the documentation httpspandaspydataorgpandasdocsstableuserguideindexinghtmlreturningaviewversusacopy dfcleanCluster kmeansfitpredictXscaled snsscatterplot xdfcleanlogFatPres ydfcleanQuantFuncionarios huedfcleanCluster paletteSet1 plttitleClusters logFatPres pltshow Ver correlação entre variáveis numéricas corr dfcleanFatPres QuantFuncionarioscorr printcorr snsheatmapcorr annotTrue cmapcoolwarm plttitleMatriz de Correlação pltshow FatPres QuantFuncionarios FatPres 1000000 0043068 QuantFuncionarios 0043068 1000000 Matriz de Correlação 1 0043 0043 1 Supondo que LTV seja proporcional ao faturamento simplificação dfcleanLTV dfcleanFatPres 12 exemplo supõe que LTV 120 do faturamento Simular um CAC aleatório dentro de uma faixa plausível nprandomseed42 dfcleanCAC nprandomrandint1000 5000 sizelendfclean Ver exemplo printdfcleanFatPres LTV CAChead FatPres LTV CAC 0 236000000 2832000e08 4174 1 1500000000 1800000e09 4507 2 56700000 6804000e07 1860 3 1500000000 1800000e09 2294 4 1500000000 1800000e09 2130 ipythoninput2424280727462 SettingWithCopyWarning A value is trying to be set on a copy of a slice from a DataFrame Try using locrowindexercolindexer value instead See the caveats in the documentation httpspandaspydataorgpandasdocsstableuserguideindexinghtmlreturningaviewversusacopy dfcleanLTV dfcleanFatPres 12 exemplo supõe que LTV 120 do faturamento ipythoninput2424280727466 SettingWithCopyWarning A value is trying to be set on a copy of a slice from a DataFrame Try using locrowindexercolindexer value instead See the caveats in the documentation httpspandaspydataorgpandasdocsstableuserguideindexinghtmlreturningaviewversusacopy dfcleanCAC nprandomrandint1000 5000 sizelendfclean Agrupar por cluster clustersummary dfcleangroupbyClusteragg FatPres mean LTV mean CAC mean QuantFuncionarios mean resetindex printclustersummary Cluster FatPres LTV CAC QuantFuncionarios 0 0 6302044e09 7562453e09 3078437037 232955556 1 1 3461042e07 4153250e07 3050599424 83288184 2 2 3383904e07 4060685e07 2882470199 283827815 3 3 1562812e08 1875374e08 2813560000 1082160000 4 4 1962031e08 2354437e08 3059902235 203025140 snsscatterplot dataclustersummary xCAC yLTV hueCluster paletteSet1 s100 plttitleCAC vs LTV por Cluster pltshow CAC vs LTV por Cluster Exemplo criar coluna de pontuação de desempenho simulada nprandomseed42 dfcleanDesempenhoCliente nprandomrandint1 10 sizelendfclean printdfcleanFatPres QuantFuncionarios DesempenhoClientehead FatPres QuantFuncionarios DesempenhoCliente 0 236000000 2760 7 1 1500000000 2710 4 2 56700000 7670 8 3 1500000000 2630 5 4 1500000000 2210 7 ipythoninput2716159578383 SettingWithCopyWarning A value is trying to be set on a copy of a slice from a DataFrame Try using locrowindexercolindexer value instead See the caveats in the documentation httpspandaspydataorgpandasdocsstableuserguideindexinghtmlreturningaviewversusacopy dfcleanDesempenhoCliente nprandomrandint1 10 sizelendfclean

Sua Nova Sala de Aula

Sua Nova Sala de Aula

Empresa

Central de ajuda Contato Blog

Legal

Termos de uso Política de privacidade Política de cookies Código de honra

Baixe o app

4,8
(35.000 avaliações)
© 2025 Meu Guru®