1
Linguagens de Programação
FMU
36
Linguagens de Programação
FMU
3
Linguagens de Programação
FMU
202
Linguagens de Programação
FMU
13
Linguagens de Programação
FMU
210
Linguagens de Programação
FMU
18
Linguagens de Programação
FMU
16
Linguagens de Programação
FMU
12
Linguagens de Programação
FMU
20
Linguagens de Programação
FMU
Texto de pré-visualização
cellscelltypecodeexecutioncount1idc4f0be2595bf4b95832240a876ed2b00metadataidc4f0be2595bf4b958322 40a876ed2b00executionInfostatusoktimestamp1698294179557usertz180elapsed1857userdisplayNameHellen E S SomavillauserId04864206991070374080outputssourceimport pandas as pd import numpy as np from sklearncluster import KMeans from sklearnpreprocessing import StandardScaler from sklearnpreprocessing import LabelEncoder from sklearnmetrics import silhouettescore from sklearn import tree import matplotlibpyplot as plt import seaborn as sns import graphviz from sklearntree import exportgraphviz matplotlib inline nprandomseed42celltypecodesourcefrom googlecolab import drive drivemountcontentdrivemetadatacolab baseurihttpslocalhost8080idmEZv35AS1viEexecutionInfo statusoktimestamp1698294206708usertz180elapsed27154userdisplayNameHellen E S SomavillauserId04864206991070374080outputIdf5878a9b6e1b4ba08ba1 992a5be5951didmEZv35AS1viEexecutioncount2outputsoutputtypestreamnamestdouttextMounted at contentdrive celltypecodeexecutioncount3idcf4b6dbbad434505aadd073d6192f75ametadataidcf4b6dbbad43 4505aadd073d6192f75aexecutionInfostatusoktimestamp1698294267055usertz180elapsed25775user displayNameHellen E S SomavillauserId04864206991070374080outputssourceImportação do dataset source contentdriveMyDrive0 UFPR DataScience Trab0 UFPR DS HellenFB1024baseleadsxlsx df pdreadexcelsource skiprows0 celltypecodeexecutioncount4idc7a7073a263642d1a79d299d12991e23metadatacolab baseurihttpslocalhost8080height200idc7a7073a263642d1a79d299d12991e23executionInfo statusoktimestamp1698294274318usertz180elapsed463userdisplayNameHellen E S SomavillauserId04864206991070374080outputId6c77da07c20f444bec587373bda6043foutputs outputtypeexecuteresultdatatextplain CodEmp CodCNAE CNAEs 0 100000166 4110700 4110700 Incorporação de empreendimentos imob SegmentoCO SegmentoGL SubsegGL CodGr 0 ENGENHARIACONSTRUÇÃO CONSTRUCAO E PROJETOS INCORPORADORA 0 StatusGr PDPrior FatPres RiscoInad 0 0 SI 12125000 Muito baixo CNAEs Secundários Cidade Estado Microregião 0 41204005223100646200068102036822600 Brasilia DF Brasília Mesoregião QuantFuncionarios Natureza Jurídica Exportador Importador 0 Distrito Federal 1170 1 NaN NaN 1 rows x 24 columnstexthtml CodEmp CodCNAE CNAEs SegmentoCO SegmentoGL SubsegGL CodGr StatusGr PDPrior F 0 100000166 4110700 4110700 Incorporação de empreendimentos imob ENGENHARIACONSTRUÇÃO CONSTRUCAO E PROJETOS INCORPORADORA 0 0 SI 12 1 rows 24 columns metadataexecutioncount4sourceVisualização do dataframe dfhead1 celltypecodeexecutioncount25id50675ed1metadatacolab baseurihttpslocalhost8080id50675ed1executionInfo statusoktimestamp1698295424174usertz180elapsed207userdisplayNameHellen E S SomavillauserId04864206991070374080outputIdb8df753d0c934676866d24e6d1b3e440outputs outputtypestreamnamestdouttext Int64Index 54858 entries 0 to 55037 Data columns total 24 columns Column NonNull Count Dtype 0 CodEmp 54858 nonnull int64 1 CodCNAE 54858 nonnull int64 2 CNAEs 54858 nonnull object 3 SegmentoCO 54858 nonnull object 4 SegmentoGL 54858 nonnull object 5 SubsegGL 54858 nonnull object 6 CodGr 54858 nonnull int64 7 StatusGr 54858 nonnull object 8 PDPrior 54858 nonnull object 9 FatPres 54858 non null float64 10 TitDevs 54858 nonnull int64 11 Porte 54858 nonnull object 12 Situação 54858 nonnull object 13 NívelAtiv 54858 nonnull object 14 RiscoInad 54858 nonnull object 15 CNAEs Secundários 54858 nonnull object 16 Cidade 54858 nonnull object 17 Estado 54858 nonnull object 18 Microregião 54858 nonnull object 19 Mesoregião 54858 nonnull object 20 QuantFuncionarios 54858 nonnull float64 21 Natureza Jurídica 54858 nonnull int64 22 Exportador 54858 nonnull object 23 Importador 54858 nonnull object dtypes float642 int645 object17 memory usage 105 MB sourceReconhecimento da base dfFatPres dfFatPresastypefloat dfinfocelltypecodeexecutioncount26id01649df9metadatacolab baseurihttpslocalhost8080id01649df9executionInfo statusoktimestamp1698295446643usertz180elapsed225userdisplayNameHellen E S SomavillauserId04864206991070374080outputId811d31e477604cfc9eb2acd62729f5e0outputs outputtypeexecuteresultdatatextplainCodEmp 0 CodCNAE 0 CNAEs 0 SegmentoCO 0 SegmentoGL 0 SubsegGL 0 CodGr 0 StatusGr 0 PDPrior 0 FatPres 0 TitDevs 0 Porte 0 Situação 0 NívelAtiv 0 RiscoInad 0 CNAEs Secundários 0 Cidade 0 Estado 0 Microregião 0 Mesoregião 0 QuantFuncionarios 0 Natureza Jurídica 0 Exportador 0 Importador 0 dtype int64metadataexecutioncount26sourceReconhecimento da base dfisnullsumcelltypecodeexecutioncount27idd0c1ebb7metadatacolab baseurihttpslocalhost8080idd0c1ebb7executionInfo statusoktimestamp1698295449571usertz180elapsed228userdisplayNameHellen E S SomavillauserId04864206991070374080outputId6def0c0d60114a4afe67749af2f87eefoutputs outputtypeexecuteresultdatatextplainNão 47453 Sim 7405 Name Exportador dtype int64metadata executioncount27sourceReconhecimento da coluna Exportador Exportador dfExportadorvaluecounts Exportador celltypecodeexecutioncount28id429ca8f9metadatacolabbaseurihttpslocalhost8080id429ca8f9executionInfo statusoktimestamp1698295454749usertz180elapsed250userdisplayNameHellen E S SomavillauserId04864206991070374080outputId6645e2d374ed4ef8d6ed781bd3f9fd9coutputs outputtypeexecuteresultdatatextplainNão 44835 Sim 10023 Name Importador dtype int64metadata executioncount28sourceReconhecimento da coluna Importador Importador dfImportadorvaluecounts Importador celltypecodeexecutioncount29id635e3994metadatacolab baseurihttpslocalhost8080id635e3994executionInfo statusoktimestamp1698295456890usertz180elapsed236userdisplayNameHellen E S SomavillauserId04864206991070374080outputIdc7b7308029014267ca32a1aba5792cf0outputs outputtypeexecuteresultdatatextplainSão Paulo 8736 Rio de Janeiro 3542 Belo Horizonte 2123 Curitiba 1877 Campinas 1501 Soledade 1 Sertão de Senador Pompeu 1 Itabaiana 1 Grão Mogol 1 Vale do Ipanema 1 Name Microregião Length 520 dtype int64metadataexecutioncount29sourceReconhecimento da coluna Microregião Microregião dfMicroregiãovaluecounts Microregião celltypecodeexecutioncount30id96555811metadataid96555811executionInfo statusoktimestamp1698295459182usertz180elapsed518userdisplayNameHellen E S SomavillauserId04864206991070374080outputssourceDeleta a linha NAN da coluna QuantFuncionarios dfdropnasubset QuantFuncionarios inplaceTrue Altera os campos NAN das colunas Exportador e Importador para Não dfExportador dfExportadorfillnaNão dfImportador dfImportadorfillnaNão dfMicroregião dfMicroregiãofillnaSI dfMesoregião dfMesoregiãofillnaSI Altera números diferentes de zero em um dfCodGr dfCodGrreplacei for i in dfCodGr if i 0 1celltypecodeexecutioncount31id23158c64metadatacolab baseurihttpslocalhost8080id23158c64executionInfo statusoktimestamp1698295461820usertz180elapsed205userdisplayNameHellen E S SomavillauserId04864206991070374080outputId9751541758344b2cdc152bf71432640coutputs outputtypeexecuteresultdatatextplainCodEmp 0 CodCNAE 0 CNAEs 0 SegmentoCO 0 SegmentoGL 0 SubsegGL 0 CodGr 0 StatusGr 0 PDPrior 0 FatPres 0 TitDevs 0 Porte 0 Situação 0 NívelAtiv 0 RiscoInad 0 CNAEs Secundários 0 Cidade 0 Estado 0 Microregião 0 Mesoregião 0 QuantFuncionarios 0 Natureza Jurídica 0 Exportador 0 Importador 0 dtype int64metadataexecutioncount31sourceValidação das alterações dfisnullsumcelltypecodeexecutioncount32id84a82e7035a24b6b85261e4819ea9739metadatacolab baseurihttpslocalhost8080height200id84a82e7035a24b6b85261e4819ea9739executionInfo statusoktimestamp1698295466090usertz180elapsed308userdisplayNameHellen E S SomavillauserId04864206991070374080outputId40d68fe603714216c677855fa079bd33outputs outputtypeexecuteresultdatatextplain CodEmp CodCNAE CNAEs 0 100000166 4110700 4110700 Incorporação de empreendimentos imob SegmentoCO SegmentoGL SubsegGL CodGr 0 ENGENHARIACONSTRUÇÃO CONSTRUCAO E PROJETOS INCORPORADORA 0 StatusGr PDPrior FatPres RiscoInad 0 0 SI 121250000 Muito baixo CNAEs Secundários Cidade Estado Microregião 0 41204005223100646200068102036822600 Brasilia DF Brasília Mesoregião QuantFuncionarios Natureza Jurídica Exportador Importador 0 Distrito Federal 1170 1 Não Não 1 rows x 24 columnstexthtml CodEmp CodCNAE CNAEs SegmentoCO SegmentoGL SubsegGL CodGr StatusGr PDPrior 0 100000166 4110700 4110700 Incorporação de empreendimentos imob ENGENHARIACONSTRUÇÃO CONSTRUCAO E PROJETOS INCORPORADORA 0 0 SI 12 1 rows 24 columns metadataexecutioncount32sourceVisualização do dataframe dfhead1 celltypecodeexecutioncount33ida490ed0bmetadatacolab baseurihttpslocalhost8080ida490ed0bexecutionInfo statusoktimestamp1698295469956usertz180elapsed225userdisplayNameHellen E S SomavillauserId04864206991070374080outputId7477b6424ade4848c0a76dff8632e407outputs outputtypestreamnamestdouttextNão há códigos com contagem maior que 1 sourceVerificação se não existem empresas em linhas duplicadas CodEmp dfCodEmpvaluecounts Filtra os códigos com contagem maior que 1 codigoscomcontagemmaiorque1 CodEmpCodEmp 1 Verifica se há códigos com contagem maior que 1 if not codigoscomcontagemmaiorque1empty printCódigos com contagem maior que 1 printcodigoscomcontagemmaiorque1 else printNão há códigos com contagem maior que 1 celltypecodeexecutioncount38id304789f65b90442f94f17bcc424bab6bmetadataid304789f65b90442f94f1 7bcc424bab6bexecutionInfostatusoktimestamp1698295528002usertz180elapsed281userdisplayNameHellen E S SomavillauserId04864206991070374080outputssourceFaz uma cópia do dataframe dftrat dfcopy celltypecodeexecutioncount39idcccb0527metadataidcccb0527executionInfo statusoktimestamp1698295529590usertz180elapsed249userdisplayNameHellen E S SomavillauserId04864206991070374080outputssourceDeleta as colunas desnecessárias para a análise dftratdropcolumnsCodEmp CodCNAE CNAEs SegmentoCO SubsegGL CodGr StatusGr PDPrior TitDevs Porte Situação RiscoInad CNAEs Secundários Cidade Estado Microregião Mesoregião Natureza Jurídica Exportador Importador inplaceTrue Codifica colunas categóricas com Label encoder labelencoder LabelEncoder dftratSegmentoGL labelencoderfittransformdftratSegmentoGL dftratNívelAtiv labelencoderfittransformdftratNívelAtiv celltypecodeexecutioncount40ideed0023d311a4bbd8402b6a57ebb2a75metadatacolab baseurihttpslocalhost8080height206ideed0023d311a4bbd8402b6a57ebb2a75executionInfo statusoktimestamp1698295533690usertz180elapsed244userdisplayNameHellen E S SomavillauserId04864206991070374080outputId6c7bbbe82d1b4aa3aa5003bff055957aoutputs outputtypeexecuteresultdatatextplain SegmentoGL FatPres NívelAtiv QuantFuncionarios 0 3 121250000 2 1170 1 10 224000000 5 500 2 10 121250000 2 760 3 5 7500000000 2 2120 4 2 3400000000 2 2700texthtml SegmentoGL FatPres NívelAtiv QuantFuncionarios 0 3 121250000 2 1170 1 10 224000000 5 500 2 10 121250000 2 760 3 5 7500000000 2 2120 4 2 3400000000 2 2700 metadataexecutioncount40sourceVisualização do dataframe dftrathead5 celltypecodeexecutioncount41id78975e11metadatacolab baseurihttpslocalhost8080height838id78975e11executionInfo statusoktimestamp1698295539389usertz180elapsed1630userdisplayNameHellen E S SomavillauserId04864206991070374080outputId2d1d320223a046469ae2ec971a8b7a1coutputs outputtypeexecuteresultdatatextplainarray dtypeobjectmetadata executioncount41outputtypedisplaydatadatatextplain imagepngiVBORw0KGgoAAAANSUhEUgAABSoAAAKqCAYAAAA9u2DoAAAAOXRFWHRTb2Z0d2FyZQBNYXRwbG90bGliIHZlcnNpb source Histograma Univariado dfhistfigsize168 o Pandas cria automaticamente um histograma para cada coluna numérica em seu DataFrame Os eixos x horizontal e y vertical de cada gráfico são calculados da seguinte maneira O eixo x representa os valores da variável ou seja os valores únicos na coluna O eixo y representa a contagem frequência de ocorrências de cada valor na coluna Cada barra no histograma representa a quantidade de vezes que um valor específico aparece na colunacelltypecodeexecutioncount42id4b973589metadatacolab baseurihttpslocalhost8080height853id4b973589executionInfo statusoktimestamp1698295559614usertz180elapsed1940userdisplayNameHellen E S SomavillauserId04864206991070374080outputId0e51d654a5b54db6f5d6f734270d5fb4outputs outputtypeexecuteresultdatatextplainmetadataexecutioncount42outputtypedisplaydatadata textplain imagepngiVBORw0KGgoAAAANSUhEUgAABI8AAAMzCAYAAAAvWjKCAAAAOXRFWHRTb2Z0d2FyZQBNYXRwbG90bGliIHZlc sourceCorrelação Criando uma área para plotagem do gráfico fig pltfigurefigsize1610 ax1 figsubplots Criando um gráfico de calor snsheatmap dftratcorr ax ax1 annotTrue cmap snscolorpalettevlag ascmapTruecelltypecodeexecutioncount46id6eac9efcmetadata colabbaseurihttpslocalhost8080height581id6eac9efcexecutionInfo statusoktimestamp1698295717088usertz180elapsed1177userdisplayNameHellen E S SomavillauserId04864206991070374080outputId6cace45d2954418a87ac8b5ad4c76453outputs outputtypeexecuteresultdatatextplainmetadataexecutioncount46 outputtypedisplaydatadatatextplain imagepngiVBORw0KGgoAAAANSUhEUgAABSwAAAIjCAYAAAAJGlWAAAAOXRFWHRTb2Z0d2FyZQBNYXRwbG90bGliIH source Cria um novo dataframe dfdispersaouni dftratQuantFuncionariostoframeresetindex Criando um gráfico de dispersão referente a QuantFuncionarios dfdispersaouniplotkindscatterxindexyQuantFuncionariostitleDistribuição de Empresasfigsize166celltypecodeexecutioncount49id88a6d237metadatacolab baseurihttpslocalhost8080id88a6d237executionInfo statusoktimestamp1698295965205usertz180elapsed216userdisplayNameHellen E S SomavillauserId04864206991070374080outputId11423276c8ed42a4b2f0 24146864ffaboutputsoutputtypeexecuteresultdatatextplainarray07367962 004269017 007481864 017100136 065193996 003938506 510472194 061003501 065193996 004269017 007481864 043966375 113357796 004269017 007481864 085248643 065193996 000799057 007481864 045806178 065193996 001764052 007481864 069396046metadataexecutioncount49sourceScaling função de alterar a escala dos dados para que eles tenham média zero e desvio padrão unitário scaler StandardScaler dftrat scalerfittransformdftrat dftrat celltypecodeexecutioncount50idb44a8f1emetadatacolab baseurihttpslocalhost8080height407idb44a8f1eexecutionInfo statusoktimestamp1698296248356usertz180elapsed2344userdisplayNameHellen E S SomavillauserId04864206991070374080outputId66d40016eb914262ae0c 5bd0f1d0e6b1outputsoutputtypedisplaydatadatatextplain imagepngiVBORw0KGgoAAAANSUhEUgAABKUAAAGGCAYAAACqvTJ0AAAAOXRFWHRTb2Z0d2FyZQBNYXRwbG source Initialize an empty list to store silhouette scores silhouettescores Initialize an empty list to store SSE Sum of Squared Errors for the elbow method sse Define a range of possible cluster numbers to try clusterrange range2 10 Iterate through the range of clusters for nclusters in clusterrange kmeans KMeansnclustersnclusters randomstate42 ninit auto kmeansfitdftrat Calculate silhouette score silhouetteavg silhouettescoredftrat kmeanslabels silhouettescoresappendsilhouetteavg Calculate SSE for elbow method sseappendkmeansinertia Plot silhouette scores pltfigurefigsize12 4 pltsubplot1 2 1 pltplotclusterrange silhouettescores bo plttitleSilhouette Score vs Number of Clusters pltxlabelNumber of Clusters pltylabelSilhouette Score Plot SSE for elbow method pltsubplot1 2 2 pltplotclusterrange sse bo plttitleElbow Method for Optimal Clusters pltxlabelNumber of Clusters pltylabelSSE plttightlayout pltshow celltypecodeexecutioncount51id21a404b1metadatacolab baseurihttpslocalhost8080id21a404b1executionInfo statusoktimestamp1698296631370usertz180elapsed12197user displayNameHellen E S SomavillauserId04864206991070374080outputId954b65bf a9f64780ac90359969fb32b8outputsoutputtypeexecuteresultdatatextplain array0 3 3 0 3 3 dtypeint32metadataexecutioncount51source Clusterização quantidadecluster 5 kmeans KMeansinit kmeans nclusters quantidadecluster ninit 100 kmeansfitdftrat kmeanslabels kmeanslabels kmeanslabels celltypecodeexecutioncount52id4e2e0263metadatacolab baseurihttpslocalhost8080height200id4e2e0263executionInfo statusoktimestamp1698296689152usertz180elapsed233user displayNameHellen E S SomavillauserId04864206991070374080outputId62337fb2 4fc442df8a5e59abb94461dcoutputsoutputtypeexecuteresultdatatextplain CodEmp CodCNAE CNAEs 0 100000166 4110700 4110700 Incorporação de empreendimentos imob SegmentoCO SegmentoGL SubsegGL CodGr 0 ENGENHARIACONSTRUÇÃO CONSTRUCAO E PROJETOS INCORPORADORA 0 StatusGr PDPrior FatPres 0 0 SI 121250000 CNAEs Secundários Cidade Estado Microregião 0 41204005223100646200068102036822600 Brasilia DF Brasília Mesoregião QuantFuncionarios Natureza Jurídica Exportador Importador 0 Distrito Federal 1170 1 Não Não cluster 0 0 1 rows x 25 columnstexthtml CodEmp CodCNAE CNAEs SegmentoCO SegmentoGL SubsegGL CodGr S 0 100000166 4110700 4110700 Incorporação de empreendimentos imob ENGENHARIACONSTRUÇÃO CONSTRUCAO E PROJETOS INCORPORADORA 0 0 1 rows 25 columns metadataexecutioncount52sourceImportando dados dos clusters para o dataframe original dfcluster dfcopy dfclustercluster kmeanslabels dfclusterhead1 celltypecodeexecutioncount53id22d92e49metadatacolab baseurihttpslocalhost8080height507id22d92e49executionInfo statusoktimestamp1698296698884usertz180elapsed2295user displayNameHellen E S SomavillauserId04864206991070374080outputId8abbac12 6ff5417ce0758b1845d1957coutputsoutputtypedisplaydatadatatextplain imagepngiVBORw0KGgoAAAANSUhEUgAAAnUAAAHqCAYAAABiL7hfAAAAOXRFWHRTb2Z0d2FyZQBNYXRw sourceimport matplotlibpatches as mpatches Plota os resultados da clusterização pltfigurefigsize12 5 pltsubplot1 2 1 Plota os pontos com cores diferentes para representar os clusters scatter pltscatterdfclusterFatPres dfclusterQuantFuncionarios cdfclustercluster cmaprainbow Crie uma legenda manualmente legendlabels dfclusterclusterunique legendhandles mpatchesPatchcolorscattercmapscatternormcluster labelfCluster cluster for cluster in legendlabels pltlegendhandleslegendhandles titleClusters plttitleResultado da Clusterização pltxlabelFatPres pltylabelQuantFuncionarios plttightlayout pltshow celltypecodeexecutioncount54ide0c5e093metadatacolab baseurihttpslocalhost8080height466ide0c5e093executionInfo statusoktimestamp1698296702846usertz180elapsed487user displayNameHellen E S SomavillauserId04864206991070374080outputId1b43110bf8414658ce7e c34d98c77163outputsoutputtypeexecuteresultdatatextplain metadataexecutioncount54outputtypedisplaydatadata textplain imagepngiVBORw0KGgoAAAANSUhEUgAAAkQAAAGwCAYAAABIC3rIAAAAOXRFWHRTb2Z0d2FyZQBN sourcePerfil quantidade de funcionarios de cada cluster snsboxplotdatadfcluster xcluster yQuantFuncionarios celltypecodeexecutioncount55id0a72e749metadatacolab baseurihttpslocalhost8080id0a72e749executionInfo statusoktimestamp1698296705056usertz180elapsed227user displayNameHellen E S SomavillauserId04864206991070374080outputIddd1e0e864d4d 4dbb8f714aa53ee83916outputs outputtypestreamnamestdouttextDecision tree model saved to deliverytree DecisionTreeClassifiermaxdepth7 minsamplesleaf100 minsamplessplit10 CodEmp CodCNAE CNAEs SegmentoCO SegmentoGL SubsegGL CodGr StatusGr PDPrior FatPres TitDevs Porte Situação NívelAtiv RiscoInad CNAEs Secundários Cidade Estado Microregião Mesoregião QuantFuncionarios Natureza Jurídica Exportador Importador cluster sourceGeração da DecisioTree customertree treeDecisionTreeClassifiermaxdepth 7 minsamplessplit 10 minsamplesleaf 100 customertreefitdftrat kmeanslabels printDecision tree model saved to deliverytree printcustomertree printdfclustercolumnsvalues celltypecodesourceimport pandas as pd Supondo que dftrat é um numpyndarray df pdDataFramedftrat columns SegmentoGLFatPresNívelAtivQuantFuncionarios printNúmero de colunas em dftrat dftratshape1metadatacolab baseurihttpslocalhost8080idsjaKDtdMZrubexecutionInfo statusoktimestamp1698297910484usertz180elapsed250user displayNameHellen E S SomavillauserId04864206991070374080outputId94ff3469cbc1 4221b571 6a65c421438fidsjaKDtdMZrubexecutioncount77outputs outputtypestreamnamestdouttextNúmero de colunas em dftrat 4 celltypecodesourcecolnames SegmentoGL FatPres NívelAtiv QuantFuncionarios dftrat pdDataFramedftrat columnscolnamesmetadataidM0uSHQtUdPDjexecutionInfo statusoktimestamp1698298133475usertz180elapsed206user displayNameHellen E S SomavillauserId04864206991070374080idM0uSHQtUdPDjexecutioncount79outputs celltypecodeexecutioncount80id1d7ce871metadata colab baseurihttpslocalhost8080height1000id1d7ce871executionInfo statusoktimestamp1698298136934usertz180elapsed508user displayNameHellen E S SomavillauserId04864206991070374080outputId348a8ca388e5 4bbdcbb168414ae5d55coutputsoutputtypeexecuteresultdata imagesvgxml ode 0 Seg e toG 0 56 sa p es 5 858 a ue 3 058 99 5 9 5 8 c ass 0 ode e t 0 63 sa p es 3 99 a ue 3 055 65 0 6 5 c ass 0 ue ode e t sa p es 0659 a ue 3 33 9 5 69 c ass 3 a se ode Qua t u c o a os 0 8 8 sa p es 9 a ue 9 65 0 0 c ass ode Qua t u c o a os 88 sa p es 3 08 a ue 3 0 6 0 0 658 c ass 0 ode 3 e t sa p es 39 a ue 9 38 0 0 0 c ass ode 6 sa p es 00 a ue 0 83 0 0 c ass ode sa p es 9 a ue 0 9 0 0 0 c ass ode 5 sa p es 99 a ue 9 90 0 0 0 c ass ode 8 at es 0 sa p es 3 0 8 a ue 3 0 0 3 0 c ass 0 ode Qua t u c o a os 3 39 sa p es 660 a ue 0 0 65 c ass ode 9 Qua t u c o a os 0 sa p es 3 3 a ue 3 3 6 0 0 0 c ass 0 ode Seg e toG 33 sa p es 0 a ue 698 0 3 0 0 c ass 0 ode 0 sa p es 3 a ue 3 0 0 0 0 c ass 0 ode sa p es 00 a ue 99 0 0 0 c ass 0 ode 3 sa p es 66 a ue 6 0 0 0 c ass 0 ode Qua t u c o a os 0 809 sa p es 535 a ue 53 0 0 0 c ass 0 ode 5 sa p es a ue 0 0 0 0 c ass 0 ode 6 sa p es a ue 3 0 0 0 c ass 0 ode 8 sa p es 00 a ue 0 0 0 98 c ass ode 9 at es 0 0 sa p es 560 a ue 0 0 0 559 c ass ode 0 sa p es 5 a ue 0 0 0 0 5 c ass ode sa p es 08 a ue 0 0 0 0 c ass ode 3 sa p es 33 a ue 0 33 0 0 0 c ass ode Qua t u c o a os 8 sa p es 93 a ue 3 9 5 69 c ass 3 ode 5 Qua t u c o a os 88 sa p es 9 53 a ue 3 9 6 c ass 3 ode 36 sa p es a ue 0 0 0 6 68 c ass ode 6 Qua t u c o a os 0 90 sa p es 89 5 a ue 0 0 89 3 0 c ass 3 ode 33 at es 0 0 6 sa p es 38 a ue 3 0 33 c ass 3 ode sa p es 6 a ue 0 0 5 0 c ass 3 ode 8 Qua t u c o a os 0 5 5 sa p es 8 99 a ue 0 0 8 98 0 c ass 3 ode 9 Qua t u c o a os 0 5 sa p es 5 3 a ue 0 0 5 0 c ass 3 ode 3 sa p es 56 a ue 0 0 0 56 0 c ass 3 ode 30 sa p es 8 a ue 0 0 0 8 0 c ass 3 ode 3 sa p es 59 a ue 0 0 58 0 c ass 3 ode 3 sa p es 9 a ue 0 0 0 c ass 3 ode 35 sa p es 09 a ue 0 06 c ass 3 textplainmetadataexecutioncount80sourceVisualiza a DecisionTree from sklearntree import exportgraphviz exportgraphvizcustomertree featurenameslistdftratcolumnsvalues Use dfcluster aqui outfiledeliverytreedot classnamesnpuniquekmeanslabelsastypestr filledTrue roundedTrue nodeidsTrue specialcharactersTrue impurityFalse labelall leavesparallel False with opendeliverytreedot as deliverytreeimage deliverytreegraph deliverytreeimageread graphvizSourcedeliverytreegraph celltypecodesourcepip install graphviz pip install pydotplusmetadatacolab baseurihttpslocalhost8080idggGO5HREeCHCexecutionInfo statusoktimestamp1698298360490usertz180elapsed17767user displayNameHellen E S SomavillauserId04864206991070374080outputIdc338085f3071 4f52ff5b 064c4361625aidggGO5HREeCHCexecutioncount81outputs outputtypestreamnamestdouttextRequirement already satisfied graphviz in usrlocallibpython310distpackages 0201 Requirement already satisfied pydotplus in usrlocallibpython310distpackages 202 Requirement already satisfied pyparsing201 in usrlocallibpython310distpackages from pydotplus 311 celltypecodesourceimport pydotplus from IPythondisplay import Image Convertendo o formato DOT para uma imagem graph pydotplusgraphfromdotfiledeliverytreedot Mostrando a imagem no Jupyter Notebook opcional Imagegraphcreatepng Salvando a imagem em um arquivo graphwritepngdeliverytreepng from googlecolab import files filesdownloaddeliverytreepngmetadata colab baseurihttpslocalhost8080height17idhA2y1TjIeI6VexecutionInfo statusoktimestamp1698298552924usertz180elapsed1513user displayNameHellen E S SomavillauserId04864206991070374080outputId9fcf62048966 40579f57 24468e95dc30idhA2y1TjIeI6Vexecutioncount84outputs outputtypedisplaydatadatatextplainapplicationjavascript async function downloadid filename size if googlecolabkernelaccessAllowed return const div documentcreateElementdiv const label documentcreateElementlabel labeltextContent Downloading filename divappendChildlabel const progress documentcreateElementprogress progressmax size divappendChildprogress documentbodyappendChilddiv const buffers let downloaded 0 const channel await googlecolabkernelcommsopenid Send a message to notify the kernel that were ready channelsend for await const message of channelmessages Send a message to notify the kernel that were ready channelsend if messagebuffers for const buffer of messagebuffers bufferspushbuffer downloaded bufferbyteLength progressvalue downloaded const blob new Blobbuffers type applicationbinary const a documentcreateElementa ahref windowURLcreateObjectURLblob adownload filename divappendChilda aclick divremove metadata outputtypedisplaydatadatatextplain applicationjavascriptdownloaddownloada62c0ce2be6944e8 bd74c8c82efb5184 deliverytreepng 438201metadata celltypecodeexecutioncountnullid063f6842metadatacolab baseurihttpslocalhost8080id063f6842executionInfo statusoktimestamp1698289066627usertz180elapsed1649user displayNameHellen E S SomavillauserId04864206991070374080outputIde3ea1abc6909 4880af2c9fe5227bf8baoutputs outputtypestreamnamestdouttextCluster 0CodEmp5890 Cluster 0CodCNAE4980 Cluster 0CNAEs8613 Cluster 0SegmentoCO8446 Cluster 0SegmentoGL9225 Cluster 0SubsegGL5418 Cluster 0CodGr6634 Cluster 0StatusGr5829 Cluster 0PDPrior5562 Cluster 0FatPres5034 Cluster 0TitDevs6457 Cluster 0Porte5406 Cluster 0Situação5844 Cluster 0NívelAtiv6162 Cluster 0RiscoInad6138 Cluster 0CNAEs Secundários10000 Cluster 0Cidade4514 Cluster 0Estado4514 Cluster 0Microregião4514 Cluster 0Mesoregião4514 Cluster 0QuantFuncionarios5505 Cluster 0Natureza Jurídica5844 Cluster 0Exportador5465 Cluster 0Importador5429 Cluster 3CodEmp3455 Cluster 3CodCNAE4392 Cluster 3CNAEs000 Cluster 3SegmentoCO845 Cluster 3SegmentoGL000 Cluster 3SubsegGL3073 Cluster 3CodGr3002 Cluster 3StatusGr3500 Cluster 3PDPrior3739 Cluster 3FatPres2776 Cluster 3TitDevs3278 Cluster 3Porte3397 Cluster 3Situação3491 Cluster 3NívelAtiv3680 Cluster 3RiscoInad3365 Cluster 3CNAEs Secundários000 Cluster 3Cidade4757 Cluster 3Estado4757 Cluster 3Microregião4757 Cluster 3Mesoregião4757 Cluster 3QuantFuncionarios3117 Cluster 3Natureza Jurídica3491 Cluster 3Exportador3813 Cluster 3Importador3819 Cluster 1CodEmp492 Cluster 1CodCNAE512 Cluster 1CNAEs1272 Cluster 1SegmentoCO448 Cluster 1SegmentoGL499 Cluster 1SubsegGL1432 Cluster 1CodGr069 Cluster 1StatusGr519 Cluster 1PDPrior571 Cluster 1FatPres058 Cluster 1TitDevs086 Cluster 1Porte1119 Cluster 1Situação510 Cluster 1NívelAtiv000 Cluster 1RiscoInad312 Cluster 1CNAEs Secundários000 Cluster 1Cidade541 Cluster 1Estado541 Cluster 1Microregião541 Cluster 1Mesoregião541 Cluster 1QuantFuncionarios301 Cluster 1Natureza Jurídica510 Cluster 1Exportador580 Cluster 1Importador606 Cluster 4CodEmp162 Cluster 4CodCNAE116 Cluster 4CNAEs114 Cluster 4SegmentoCO261 Cluster 4SegmentoGL276 Cluster 4SubsegGL077 Cluster 4CodGr276 Cluster 4StatusGr152 Cluster 4PDPrior128 Cluster 4FatPres270 Cluster 4TitDevs171 Cluster 4Porte077 Cluster 4Situação154 Cluster 4NívelAtiv157 Cluster 4RiscoInad184 Cluster 4CNAEs Secundários000 Cluster 4Cidade188 Cluster 4Estado188 Cluster 4Microregião188 Cluster 4Mesoregião188 Cluster 4QuantFuncionarios1075 Cluster 4Natureza Jurídica154 Cluster 4Exportador142 Cluster 4Importador145 Cluster 2CodEmp001 Cluster 2CodCNAE000 Cluster 2CNAEs000 Cluster 2SegmentoCO000 Cluster 2SegmentoGL000 Cluster 2SubsegGL000 Cluster 2CodGr020 Cluster 2StatusGr001 Cluster 2PDPrior000 Cluster 2FatPres1862 Cluster 2TitDevs008 Cluster 2Porte000 Cluster 2Situação001 Cluster 2NívelAtiv001 Cluster 2RiscoInad001 Cluster 2CNAEs Secundários000 Cluster 2Cidade000 Cluster 2Estado000 Cluster 2Microregião000 Cluster 2Mesoregião000 Cluster 2QuantFuncionarios003 Cluster 2Natureza Jurídica001 Cluster 2Exportador001 Cluster 2Importador001 source Calcular o total de cada cluster clustercounts dfclusterclustervaluecounts Calcular o percentual de participação de cada cluster em relação a cada coluna resultado for cluster in clustercountsindex clusterdata dfclusterdfclustercluster cluster totalrows lenclusterdata for col in dfclustercolumns if col cluster if dfclustercoldtype int64 or dfclustercoldtype float64 coltotal clusterdatacolastypefloatsum totalcol dfclustercolastypefloatsum else coltotal lenclusterdataclusterdatacol dfclustercoliloc0 totalcol lendfclusterdfclustercol dfclustercoliloc0 percentage coltotal totalcol 100 resultadoappendcluster col percentage Mostrar o resultado for item in resultado printfCluster item0item1item22f resultado pdDataFrameresultado salva em csv windows resultadotocsvclusterpercentualProjcsv encoding utf8 sig salva em csv colab resultadotocsvclusterpercentualcsv encoding utf8 sig filesdownloadclusterpercentualcsv celltypecodeexecutioncountnullidfe16e7femetadatacolab baseurihttpslocalhost8080idfe16e7feexecutionInfo statusoktimestamp1698289073548usertz180elapsed1758user displayNameHellen E S SomavillauserId04864206991070374080outputId70ed81f07f92 4a9ab534ea79b4adfffeoutputs outputtypestreamnamestdouttextQuantidade de linhas com valores iguais a 0 no cluster 0 31384 Quantidade de linhas com valores diferentes de 0 no cluster 0 674 Quantidade de linhas com valores iguais a 0 no cluster 1 2792 Quantidade de linhas com valores diferentes de 0 no cluster 1 7 Quantidade de linhas com valores iguais a 0 no cluster 2 3 Quantidade de linhas com valores diferentes de 0 no cluster 2 2 Quantidade de linhas com valores iguais a 0 no cluster 3 18847 Quantidade de linhas com valores diferentes de 0 no cluster 3 305 Quantidade de linhas com valores iguais a 0 no cluster 4 816 Quantidade de linhas com valores diferentes de 0 no cluster 4 28 source Número total de clusters totalclusters dfclusterclusternunique Loop para filtrar e salvar os clusters for ncluster in rangetotalclusters condicaocombinada dfclustercluster ncluster resultadofiltrado dfclustercondicaocombinada Conte a quantidade de linhas com valores iguais a 0 quantidadeiguala0 lenresultadofiltradoresultadofiltradoCodGr 0 Conte a quantidade de linhas com valores diferentes de 0 quantidadediferentede0 lenresultadofiltradoresultadofiltradoCodGr 0 Exiba a contagem para ambos os casos printfQuantidade de linhas com valores iguais a 0 no cluster ncluster quantidadeiguala0 printfQuantidade de linhas com valores diferentes de 0 no cluster ncluster quantidadediferentede0 Salve em CSV resultadofiltradotocsvfclusternclustercsv indexFalse encoding utf8sig salva em csv colab resultadofiltradotocsvfclusternclustercsv encoding utf8sig filesdownloadclustercsvmetadatakernelspec displaynamePython 3 ipykernellanguagepythonnamepython3languageinfo codemirrormode nameipythonversion3fileextensionpymimetypetextx pythonnamepythonnbconvertexporterpythonpygmentslexeripython3version3106colab provenancenbformat4nbformatminor5 UNIVERSIDADE FEDERAL DO PARANÁ HELLEN EUNICE DA SILVA SOMAVILLA METODOLOGIA DE SEGMENTAÇÃO DE CLIENTES B2B ORIENTADA A LUCRATIVIDADE E OS EFEITOS NO LIFETIME VALUE LTV CURITIBA 2025 HELLEN EUNICE DA SILVA SOMAVILLA METODOLOGIA DE SEGMENTAÇÃO DE CLIENTES B2B ORIENTADA A LUCRATIVIDADE E OS EFEITOS DO LIFETIME VALUE LVT Dissertação de Mestrado apresentada ao Programa de PósGraduação em Gestão de Organizações Liderança e Decisão PPGOLD Universidade Federal do Paraná como requisito parcial à obtenção do título de Mestre Orientador Cassius Tadeu Scarpin CURITIBA 2025 Ficha Catalográfica HELLEN EUNICE DA SILVA SOMAVILLA METODOLOGIA DE SEGMENTAÇÃO DE CLIENTES B2B ORIENTADA A LUCRATIVIDADE E OS EFEITOS DO LIFETIME VALUE LVT Dissertação de Mestrado apresentada ao Programa de PósGraduação em Gestão de Organizações Liderança e Decisão PPGOLD Universidade Federal do Paraná como requisito parcial à obtenção do título de Mestre Aprovado em de de 2025 Prof Cassius Tadeu Scarpin Orientador Professor do Programa de PósGraduação da Universidade Federal do Paraná Prof Universidade Prof Universidade Aos pilares da minha vida minhas queridas filhas e esposo Manoella Martinna e Romério cujo amor e alegria diários são minha fonte de inspiração e força ao meu orientador professor Cassius pelo encorajamento nos momentos difíceis e aos amigos acolhedores que agiram em cada momento de dúvida e celebração Cada um de vocês foi peça chave nessa conquista pela importância do amor do apoio e da amizade Dedico esta dissertação a vocês com toda a minha gratidão AGRADECIMENTOS Em geral aquele que ocupa primeiro o campo de batalha e aguarda seu inimigo está à vontade quem chega depois à cena e se apressa a lutar está cansado Sun Tzu Mintzberg et al 2010 RESUMO As organizações atuando em mercados cada vez mais limitados ou saturados enfrentam constantemente o desafio de fidelizar seus clientes e têm um processo de venda complexo para a progressão do negócio seja na expansão das frentes já existentes ou na criação de novas Essas organizações buscam impedir que seus clientes existentes se tornem inativos enquanto orientam na priorização de novas empresas a serem prospectadas alocando recursos em seus orçamentos para sustentar o portfólio e atender a requisitos estratégicos Esta pesquisa visa realizar um estudo analítico sobre a importância da metodologia de segmentação de clientes orientada à lucratividade e seus efeitos no Lifetime Value LTV Tratase da aplicação da descoberta de conhecimento em bancos de dados KDD Knowledge Discovery in Databases Como limitações o estudo contemplará o cenário de empresas do segmento financeiro nacional dependentes do fator de inadimplência e atuando no modelo B2B Business to Business utilizando informações públicas relacionadas ao cadastro de pessoas jurídica Por meio dos resultados obtidos verificase que a metodologia segmentada de clientes orientada ao LTV contribui para as inferências sobre investimentos estruturais na formação das metas de conversão dos negócios no tempo de vida dos clientes e na definição de projetos comerciais como expansão ou abertura de novas frentes de campanhas de marketing Isso auxilia na compreensão dos limites das expectativas sobre o grau de assertividade das projeções O método portanto abre proposições relacionadas à melhoria nas variáveis CAC Customer Acquisition Cost e Churn que compõem a formulação matemática do LTV Diante disso este trabalho propõe uma metodologia de segmentação de clientes baseada em variáveis de lucratividade com o uso de algoritmos de aprendizado de máquina visando aumentar a assertividade da priorização comercial e apoiar a tomada de decisão estratégica com base em dados Para que se obtenha um maior resultado em retenção de clientes alocação eficiente de recursos e previsão do comportamento futuro dos leads e clientes atuais a proposta busca integrar técnicas de clusterização análise fatorial e modelos preditivos alinhadas ao processo de KDD possibilitando inferências mais precisas e personalizadas sobre o valor de cada cliente ao longo do tempo Palavraschave Estratégia Comercial Inteligência de Mercado Lucratividade eou Indicadores de Lucratividade Filtros de Colaborativos Cluster e Negócios ABSTRACT Organizations operating in increasingly constrained or saturated markets constantly face the challenge of retaining their customers and managing a complex sales process necessary for business progression whether by expanding existing fronts or creating new ones These organizations strive to prevent current customers from becoming inactive while prioritizing new prospects allocating budget resources to sustain the portfolio and meet strategic requirements This research aims to conduct an analytical study on the importance of profitabilityoriented customer segmentation methodology and its effects on Lifetime Value LTV It involves the application of Knowledge Discovery in Databases KDD As a limitation the study will focus on companies in the national financial sector that are dependent on default rates and operate under the B2B Business to Business model using publicly available data related to corporate registration The results show that a segmented customer approach oriented toward LTV contributes to inferences about structural investments setting business conversion goals determining customer lifetime and defining commercial projects such as expansion or the launch of new marketing campaigns This helps to better understand the limitations of expectations regarding the accuracy of projections Therefore the method introduces propositions aimed at improving variables such as CAC Customer Acquisition Cost and Churn which are part of the mathematical formulation of LTV In this context the study proposes a customer segmentation methodology based on profitability variables using machine learning algorithms to increase the accuracy of commercial prioritization and support data driven strategic decisionmaking To achieve better results in customer retention efficient resource allocation and forecasting future behavior of leads and current clients the proposed approach integrates clustering techniques factor analysis and predictive models aligned with the KDD process enabling more precise and personalized insights into each customers lifetime value Keywords Commercial Strategy Market Intelligence Profitability andor Profitability Indicators Collaborative Filtering Clustering Business LISTA DE SIGLAS E TERMOS EM INGLÊS SIGLA Descrição Explicação ACO Ant Colony Optimization é um algoritmo de otimização baseado na forma como as formigas encontram os caminhos mais curtos entre seu ninho e uma fonte de alimento AG Algoritmos Genéricos são métodos de otimização inspirados nos princípios da evolução natural e genética Eles são usados para encontrar soluções aproximadas para problemas de otimização complexos que podem ser difíceis de resolver por métodos convencionais ANOVA Analysis of Variance é uma técnica estatística utilizada para comparar as médias de três ou mais segmentos determinando diferenças estatisticamente significativas entre essas médias AntMiner é um algoritmo de mineração de dados inspirado no comportamento das colônias de formigas especificamente projetado para a tarefa de descoberta de regras de classificação em grandes conjuntos de dados Arrays são estruturas que guardam uma coleção de elementos de dados geralmente do mesmo tipo em uma sequência de memória Attention Models são mecanismos utilizados em redes neurais que permitem que a rede preste atenção a partes específicas de uma entrada durante a previsão ou a execução de uma tarefa B2B Businessto Business referese a transações comerciais realizadas entre empresas B2C Businessto consumer referese a um modelo de negócios no qual as empresas vendem produtos ou serviços diretamente aos consumidores finais Backbone é um termo usado em redes de computadores para se referir à principal infraestrutura que interliga diferentes redes locais e segmentos de rede proporcionando conectividade e transporte de dados de alta velocidade entre essas redes Big Data referese a empresas do segmento de tecnologia que agrupam e correlacionam dados disponíveis por instituições públicas ou privadas para uso empresarial Bin é uma categoria ou intervalo específico dentro do qual valores contínuos são agrupados como parte do processo de binning Binning é uma técnica de préprocessamento de dados que agrupa valores contínuos em um número menor de categorias ou bins baseandose em critérios como largura de intervalo ou frequência de observações para suavizar variações nos dados e facilitar análises posteriores Boxplot também conhecido como diagrama de caixa ou gráfico de caixa e bigodes é uma representação gráfica que resume a distribuição de um conjunto de dados numéricos através de cinco números principais o valor mínimo o primeiro quartil Q1 a mediana Q2 o terceiro quartil Q3 e o valor máximo CAC Customer Acquisition Cost referese ao custo total incorrido por uma empresa para adquirir um novo cliente CDAF CrossDomain Adaptive Framework é um modelo ou estrutura adaptativa que facilita o aprendizado e a transferência de conhecimento entre diferentes domínios CEO Chief Executive Officer o cargo de maior autoridade dentro de uma empresa ou organização Churn ou taxa de cancelamento referese à proporção de clientes ou empresas que deixam de usar os serviços ou produtos da empresa Cliente indivíduo ou organização que já realizou uma compra ou utiliza os serviços da empresa e por isso já contribuem diretamente para o lucro da empresa Cluster referese a um grupo de objetos ou pontos de dados que são semelhantes entre si e são diferentes dos objetos em outros grupos Clusterização ou clustering é um método de análise de dados utilizado para agrupar um conjunto de objetos de tal forma que objetos semelhantes sejam colocados no mesmo grupo ou cluster CRM Customer é a gestão empresarial integrada para Relationship Management analisar interações com clientes e dados ao longo do ciclo de vida dele CSV CommaSeparated Values é um modelo de arquivo utilizado para guardar dados em formato de texto simples DataFrames é uma estrutura de dados bidimensional similar a uma tabela utilizada para armazenar dados em formato de linhas e colunas É uma das principais estruturas de dados usadas em bibliotecas de análise de dados como Pandas em Python Data Mining ou mineração de dados o processo de descobrir padrões tendências e informações úteis em grandes conjuntos de dados utilizando técnicas estatísticas matemáticas de inteligência artificial e de aprendizado de máquina DBSCAN DensityBased Spatial Clustering of Applications with Noise é um algoritmo de clusterização popular usado na mineração de dados e aprendizado de máquina Ao contrário de métodos de clusterização baseados em centroides como kmeans o DBSCAN é particularmente eficaz para identificar clusters de formas arbitrárias e para lidar com outliers Decision Tree é um algoritmo de aprendizado supervisionado amplamente utilizado tanto para problemas de classificação quanto de regressão Ela representa um modelo preditivo que mapeia observações sobre um item para conclusões sobre o valor alvo do item DNN Deep Neural Network ou Rede Neural Profunda é uma rede neural artificial que possui múltiplas camadas desde a camada de entrada e a camada de saída Elbow ou método do cotovelo é uma técnica heurística utilizada para determinar o número ótimo de clusters ou agrupamentos em um algoritmo de clustering como o Kmeans encontrando um ponto de inflexão o cotovelo no gráfico Feature Based referese a uma abordagem no campo do aprendizado de máquina e mineração de dados onde o foco está nas características dos dados F2P Freetoplay referese a um modelo de negócios usado principalmente na indústria de jogos eletrônicos onde os jogadores podem acessar o jogo gratuitamente GINI coeficiente de também conhecido simplesmente como Gini é uma medida de dispersão ou desigualdade frequentemente usada em economia para quantificar a desigualdade de renda ou riqueza dentro de uma população Heatmap mapa de calor é uma representação gráfica de dados onde valores individuais contidos em uma matriz são representados por cores Heurística estratégia metodológica que seleciona e utiliza variáveis com base na experiência intuição ou práticas comprovadas Higienização Processo que envolve a remoção de duplicatas correção de erros e atualização dos dados para assegurar a precisão e a utilidade das informações evitando erros e inconsistências Insight compreensão profunda e estratégica orientando decisões de alto impacto que direcionam a empresa para o crescimento e sustentabilidade a longo prazo Interquartil é uma medida estatística da dispersão ou variabilidade de um conjunto de dados É a diferença entre o 3º quartil Q3 e o 1º quartil Q1 de um total de informações representando a faixa dos 50 centrais das informações IQR Interquartil range também conhecido como amplitude interquartil é uma medida de dispersão estatística que descreve a extensão dos valores centrais de um conjunto de dados Especificamente o IQR é a diferença entre o terceiro quartil Q3 e o primeiro quartil Q1 e representa a faixa onde se encontra os 50 centrais dos dados KDD Knowledge Discovery in Databases processo de identificar padrões atuais e novos potencialmente úteis em um grande conjunto de dados Kmeans é um algoritmo de aprendizado de máquina não supervisionado usado para resolver problemas de clustering ou agrupamentos de objetos Lead é um potencial cliente indivíduo ou empresa que demonstra interesse nos produtos ou serviços da empresa mas ainda não realizou uma compra e portanto representam potenciais fontes de lucro no futuro Lifespan Customer Lifecycle ou ciclo de vida do cliente referese ao período total durante o qual um cliente permanece ativo e gera receita para uma empresa Logit multinomial é um modelo estatístico usado para predição e classificação em situações na qual a variável dependente é categorizada com mais de duas categorias LTR Lifetime Revenue é uma métrica usada para quantificar a receita total que um cliente gera durante todo o período em que mantém um relacionamento com uma empresa LTV Lifetime Value é um conceito de marketing usado para estimar o valor total que uma empresa pode esperar receber de um cliente ao longo de todo o seu relacionamento com essa empresa Marketing conjunto de práticas e processos utilizados por organizações para promover vender produtos ou serviços Matplotlib é uma biblioteca de visualização de dados em Python que permite criar gráficos estáticos e interativos Missingno é uma biblioteca em Python projetada para visualizar e diagnosticar valores ausentes em conjuntos de dados NumPy Numerical Python é uma biblioteca de código aberto para a linguagem de programação Python que fornece para suporte para arrays e matrizes multidimensionais juntamente com uma coleção de funções matemáticas de alto nível para operar esses arrays Outlier é um ponto de dados que difere significativamente dos outros pontos de um conjunto de dados geralmente a maior Pandas é uma biblioteca para análise e manipulação de dados em Python Pipeline é um termo amplamente utilizado em tecnologia e ciência de dados que se refere a uma série de etapas sequenciais pelas quais os dados ou tarefas passam desde o início até a conclusão PnP PlugandPlay é um termo usado para descrever dispositivos de hardware ou software que são projetados para funcionar com um mínimo de configuração e intervenção do usuário Prospects clientes ou empresas que tem potencial para se tornarem clientes da empresa no futuro Python é uma linguagem de programação de alto nível amplamente utilizada que oferece uma ampla biblioteca padrão facilitando a extensão de sua funcionalidade para praticamente qualquer tarefa Recall também conhecido como sensibilidade ou taxa de verdadeiros positivos é uma métrica de desempenho utilizada na avaliação de modelos de classificação Ele mede a capacidade do modelo de identificar corretamente todas as ocorrências positivas verdadeiros positivos dentro do conjunto de dados RF Randon Forest é um algoritmo de aprendizado em conjunto usado tanto para classificação quanto para regressão RNA Redes Neurais Artificiais são algoritmos de aprendizado de máquina com funcionamento similar ao cérebro humano São compostas por unidades interligadas chamadas neurônios artificiais organizadas em camadas As RNAs são usadas para uma variedade de tarefas incluindo classificação regressão e reconhecimento de padrões RNN Recurrent Neural Network ou rede neural recorrente é um tipo de rede neural artificial projetada para reconhecer padrões em sequências de dados como séries temporais texto ou áudio Scikitlearn é uma biblioteca de código aberto para aprendizado de máquina em Python Ela oferece uma vasta gama de ferramentas eficientes e fáceis de usar para mineração de dados e análise de dados Seaborn é uma biblioteca de visualização de dados em Python com base no Matplotlib Ela fornece interface de alto nível para desenho de gráficos estatísticos informativos Seq2Seq Sequenceto Sequence Learning é uma abordagem de aprendizado profundo que mapea uma sequência de entrada para uma sequência de saída frequentemente utilizada em tarefas onde a saída não tem a mesma duração que a entrada Silhouette é uma técnica de avaliação de clusterização que mede a qualidade de uma segmentação de dados Ela quantifica o quão bem cada ponto de dados foi agrupado comparando a coesão dentro do cluster e a separação entre clusters SQL Structured Query Language é uma linguagem de programação útil para estudos das informações em bancos de dados relacionais SSE Sum of Squared Errors Soma dos Erros Quadráticos Subplot é um termo utilizado em visualização de dados para se referir a múltiplos gráficos ou figuras exibidas em uma única tela ou página organizados em uma grade Testes T são testes estatísticos utilizados para comparar as médias de dois grupos e determinar se as diferenças observadas entre as médias são estatisticamente significativas TIC Tecnologia da Informação e Comunicação referemse ao conjunto de recursos tecnológicos e de comunicação utilizados para a criação armazenamento processamento transmissão e disseminação de informações ZILN ZeroInflated Lognormal é um modelo estatístico utilizado para lidar com dados que possuem uma alta proporção de zeros juntamente com valores contínuos que seguem uma distribuição lognormal ÍNDICE DE TABELAS Tabela 1 Resumo dos clusters com métricas médias de negócio158 ÍNDICE DE FIGURAS Figura 1 Uma visão geral das etapas que compõem o processo KDD33 Figura 2 Boxplot46 Figura 04 Gráfico da Pontuação de Silhueta em função do número de clusters69 Figura 5 Visualização dos clusters gerados pelo KMeans com redução PCA73 Figura 6 Scree Plot Distribuição dos Autovalores por Componente Principal75 Figura 7 Scree Plot dos Autovalores por Componente Principal77 Figura 8 Comparação entre abordagens de classificação interpretabilidade desempenho preditivo e complexidade computacional79 Figura 9 Exemplo esquemático de uma árvore de decisão simulando a classificação de clientes com base em perfil e comportamento82 Figura 10 Estrutura de Funcionamento de um Algoritmo Genético87 Figura 11 Proposta de segmentação de clientes baseado no valor ao longo da sua vida e na sua lealdade à marca123 123 Figura 12 Matriz de correlação entre Faturamento e Quantidade de Funcionários 141 Figura 13 Gráfico do método do cotovelo para definição do número de clusters dados brutos144 Figura 14 Gráfico do método do cotovelo com transformação logarítmica do Faturamento147 Figura 15 Distribuição dos clusters considerando Faturamento original e Quantidade de Funcionários149 Figura 16 Distribuição dos clusters considerando Faturamento transformado em log e Quantidade de Funcionários150 Figura 17 Relação entre CAC e LTV médios por cluster153 SUMÁRIO CAPÍTULO I17 1 INTRODUÇÃO17 11 DESCRIÇÃO DO PROBLEMA20 12 OBJETIVOS21 121 Objetivo Geral21 122Objetivos Específicos22 13 JUSTIFICATIVA DO TRABALHO23 14 LIMITAÇÕES DO TRABALHO24 15 ESTRUTURA DO TRABALHO26 CAPÍTULO II30 2REVISÃO DA LITERATURA30 21 PROCESSO DE KNOWLEDGE DISCOVERY IN DATABASE KDD30 211 Tratamento de dados33 2111 Eliminando Ruídos E Inconsistências34 2112 Tratando Valores Ausentes37 2113 Normalização Dos Dados40 2114 Outliers BOXPLOT43 21141 Estrutura E Componentes De Um Boxplot45 2115 Uso Do Python47 21151 Pandas49 21152 Numpy52 21153ScikitLearn54 21154 Matplotlib56 21155 Seaborn59 21156 MISSINGNO61 212 Transformação De Dados63 2121 Método De Clusterização65 21211 ELBOW67 21212 SILHOUETTE69 2122 KMEANS71 2123 Análise Fatorial73 2124 Análise De Componentes Principais Pca76 213 Data Mining Para Classificação78 2131 Algoritmos De Classificação78 2132 DECISION TREE ARVORES DE DECISÃO PARA REGRAS DE CLASSIFICAÇÃO80 2133 RF Random Forest82 2134 RNA Redes Neurais Artificiais84 2135 AG Algoritmos Genéticos86 22 SEGMENTAÇÃO DE CLIENTES89 221 Pureza E Uniformidade Dos Segmentos90 222 Diferenciação Entre Segmento92 223 Matriz De Confusão94 224 testes e hipóteses97 225 Análise de correlação entre segmentos e variáveis de negócios98 226 Interpretação Dos Resultados E Indicadores100 227 CAC e LTV101 2271 CAC Customer Acquisition Cost103 2272 LTV Lifetime Value105 23 SEGMENTAÇÃO DE CLIENTES B2B108 231 Critérios relevantes para segmentação B2B110 2311 Critérios financeiros111 2312Critérios comportamentais113 2313 Critérios estratégicos114 232 Técnicas quantitativas para segmentação B2B115 233 Desafios atuais e perspectivas futuras118 CAPÍTULO III121 3 TRABALHOS CORRELATOS121 CAPÍTULO IV132 4 METODOLOGIA132 41 TIPO DE PESQUISA132 42 PROCEDIMENTOS METODOLÓGICOS133 43 FERRAMENTAS E SOFTWARES135 44 LIMITAÇÕES METODOLÓGICAS136 441 Pré Processamento137 442 Análise Estatística139 443 Mineração De Dados142 444 Simulação de métricas de negócio152 CAPÍTULO 5156 5 RESULTADOS E DISCUSSÃO156 51 RESULTADOS156 511 Discussão Estratégica dos Clusters159 52 DISCUSSÃO161 CONCLUSÃO166 REFERÊNCIAS BIBLIOGRÁFICAS170 ANEXOS176 17 CAPÍTULO I 1 INTRODUÇÃO No atual cenário corporativo empresas inseridas em mercados saturados enfrentam desafios significativos para manter sua base de clientes ativa e simultaneamente expandir suas operações comerciais em um ambiente altamente competitivo Com a intensificação da concorrência e a crescente exigência dos consumidores tornase cada vez mais difícil preservar o engajamento e a lealdade do públicoalvo apenas com abordagens tradicionais Nesse contexto destacase a necessidade de estratégias bem estruturadas que sustentem o relacionamento com os clientes já conquistados evitando sua inatividade e possível evasão Para tanto muitas organizações alocam recursos significativos em seus orçamentos não apenas para viabilizar campanhas de fidelização mas também para garantir o cumprimento de metas comerciais e objetivos estratégicos Tais metas por sua vez costumam ser fundamentadas em projeções de longo prazo frequentemente amparadas em inferências heurísticas e planejamentos orientados por experiências anteriores e tendências de mercado É nesse ambiente desafiador que emergem metodologias e técnicas orientadas por dados com o propósito de auxiliar gestores na identificação das reais necessidades de seus clientes e prospects O termo prospects amplamente utilizado no meio empresarial referese a indivíduos ou empresas que ainda não realizaram uma compra mas que apresentam perfil compatível com os critérios do públicoalvo da organização configurandose como potenciais clientes No presente trabalho o termo será mantido em sua forma original em inglês respeitando seu uso consagrado no contexto comercial e de marketing Com o auxílio dessas ferramentas os gestores podem descobrir padrões comportamentais e desenhar ofertas personalizadas que atendam de maneira simultânea às expectativas dos clientes e às metas de rentabilidade das empresas Entre as ferramentas que vêm se destacando nas estratégias comerciais contemporâneas merece destaque o LTV Lifetime Value ou valor do tempo de vida do cliente Tratase de uma métrica essencial no monitoramento da rentabilidade de cada cliente ao longo de seu relacionamento com a empresa 18 Segundo Olnén 2022 o LTV representa o montante total que um cliente pode gerar em receita sendo 19 Capítulo 1 Introdução especialmente útil para mensurar o sucesso das estratégias de retenção e para orientar investimentos em ações comerciais específicas Quando bem utilizado o LTV permite que empresas identifiquem os clientes com maior potencial de retorno otimizando os esforços de fidelização e personalização de serviços Complementando essa visão Wu et al 2023 destacam que a aplicação do LTV tem impactos diretos na ampliação da margem de lucro pois orienta a criação de ofertas mais assertivas ações proativas de relacionamento e intervenções estratégicas voltadas para retenção Além disso permite um gerenciamento mais inteligente de clientes com baixa geração de receita promovendo o redirecionamento de recursos para segmentos mais rentáveis e viabilizando o planejamento de futuras oportunidades comerciais a partir do valor acumulado de cada perfil de cliente Dessa forma esta pesquisa se propõe a realizar um estudo baseado em dados públicos de mercado oriundos de bases amplas e abertas comumente associadas ao conceito de Big Data A proposta metodológica foi concebida pela autora com base em variáveis escolhidas de forma tanto heurística quanto estratégica levando em consideração as particularidades do produto ou serviço de interesse geralmente estruturado sob a forma de campanhas de marketing direcionadas ou perfis ideais de clientes O objetivo central é demonstrar a relevância da segmentação inteligente de leads priorizando estrategicamente as ações de prospecção e o gerenciamento cotidiano da área comercial com foco na maximização da rentabilidade e na eficiência operacional Nesse cenário os sistemas de recomendação ganham protagonismo como ferramentas essenciais para impulsionar as vendas e refinar as estratégias de marketing Tais sistemas atuam tanto na atração de novos clientes quanto na fidelização dos já existentes proporcionando experiências mais personalizadas e consequentemente mais eficazes A filtragem colaborativa uma das técnicas mais consolidadas nesse campo vem sendo constantemente aprimorada por meio da integração com abordagens analíticas diversas ampliando sua capacidade de gerar recomendações relevantes e contextualizadas Entre essas abordagens destacase a proposta deste estudo que consiste na integração entre o processo de Descoberta de Conhecimento em Bancos de 20 Capítulo 1 Introdução Dados Knowledge Discovery in Databases KDD e os sistemas de recomendação colaborativos O KDD ao explorar grandes volumes de dados e extrair padrões relevantes permite a construção de insights mais profundos e personalizados o que eleva significativamente a qualidade das decisões comerciais baseadas em dados Essa sinergia entre sistemas inteligentes e mineração de dados representa um avanço importante na busca por estratégias comerciais mais embasadas e preditivas Conforme Fayyad et al 1996 o KDD assume papel estratégico ao transformar dados brutos em conhecimento aplicável permitindo que decisões importantes sejam tomadas com base em informações robustas estruturadas e alinhadas aos objetivos organizacionais Os autores reforçam que a utilização do KDD em sistemas de apoio à decisão comercial não apenas aumenta a eficiência analítica mas também fortalece a capacidade das empresas de responder de forma ágil e fundamentada às dinâmicas do mercado 11 DESCRIÇÃO DO PROBLEMA O processo de tomada de decisão do planejamento comercial baseiase em duas etapas fundamentais e interdependentes uma etapa tática e outra estratégica Na etapa tática predomina uma abordagem analítica e racional baseada em dados concretos indicadores de desempenho e cálculos numéricos que sustentam decisões objetivas Essa fase é orientada por métricas quantificáveis como faturamento margem de contribuição taxa de conversão entre outros No entanto embora a racionalidade seja o eixo principal não se descarta a presença de inferências pontuais derivadas de situações excepcionais como alterações políticas internas sazonalidades específicas ou ocorrências de outliers isto é registros que fogem ao padrão estatístico mas que podem sinalizar oportunidades ou ameaças relevantes ao planejamento Tais exceções embora menos frequentes são levadas em consideração por sua capacidade de alterar os rumos táticos mesmo quando não previstas pelos modelos matemáticos tradicionais Na etapa estratégica por sua vez o foco se desloca para uma visão mais holística e de longo prazo Aqui o papel dos gestores de alto escalão se torna mais 21 Capítulo 1 Introdução proeminente pois são eles que baseandose em sua vivência conhecimento acumulado do setor e leitura do ambiente externo contribuem com interpretações e julgamentos subjetivos Esses insights derivados de experiências anteriores ou da sensibilidade diante de sinais do mercado são fundamentais para orientar decisões que extrapolam a objetividade dos números permitindo um direcionamento mais robusto das metas comerciais e dos investimentos futuros Essa combinação entre análise empírica e intuição estratégica busca alinhar a empresa às transformações do mercado promovendo um crescimento sustentável e planejado Desta forma a presente pesquisa está relacionada principalmente à etapa tática Visa gerar uma metodologia que define quais os leads e clientes do universo mapeado previamente necessitam de priorização de ações de relacionamento ou prospecção Em decorrência da metodologia proposta a ser apresentada no decorrer do trabalho as contribuições da aplicação de um método de segmentação de clientes com adoção de variáveis de lucratividade para alavancagem da estratégia comercial tornase uma possibilidade real e prática para aumentar a produtividade da área comercial Previsões fundamentadas em indicadores de lucratividade como o LTV não apenas ajudam o planejamento financeiro da empresa mas também contribuem para melhores decisões de marketing e orientam o gerenciamento de relacionamento com o cliente CRM WANG et al 2019 12 OBJETIVOS 121 Objetivo Geral Desenvolver uma metodologia de segmentação de clientes que permita de forma sistematizada e baseada em dados a identificação de características específicas e recorrentes de cada grupo formado a partir de variáveis comerciais relevantes A proposta visa estruturar a definição de segmentos com base em critérios tanto quantitativos quanto qualitativos considerando aspectos operacionais financeiros e comportamentais dos clientes Além disso objetivase incorporar à metodologia variáveis diretamente relacionadas à lucratividade como o Faturamento 22 Capítulo 1 Introdução e o Custo de Aquisição de Clientes CAC de modo a gerar inferências consistentes e aplicáveis ao indicador Lifetime Value LTV A abordagem busca oferecer suporte técnico e estratégico à operação comercial permitindo decisões mais assertivas sobre prospecção retenção e priorização de contas no ambiente B2B com foco no aumento da rentabilidade e na otimização do relacionamento com os clientes ao longo do tempo 122Objetivos Específicos Serão explorados os seguintes objetivos específicos Identificar a partir da literatura especializada os principais critérios utilizados na segmentação de leads e clientes no ambiente B2B considerando tanto abordagens tradicionais quanto modelos contemporâneos de marketing orientado por dados de forma a compreender como diferentes variáveis demográficas comportamentais financeiras e relacionais influenciam a categorização de perfis de empresas e tomadores de decisão Analisar o conceito de Lifetime Value LTV e sua utilização como métrica orientadora em estratégias de segmentação de clientes com ênfase em sua aplicabilidade prática para estimar o potencial de receita futura orientar investimentos comerciais priorizar contas estratégicas e subsidiar decisões sobre retenção upsell e alocação de recursos Investigar modelos teóricos de pontuação de leads com base em variáveis relacionadas à rentabilidade e ao ciclo de vida do cliente buscando compreender como sistemas de classificação podem apoiar a definição de prioridades de prospecção e engajamento em contextos empresariais com orçamentos limitados e metas de alta conversão Revisar os fundamentos do processo de descoberta de conhecimento em bases de dados KDD e suas aplicações na organização e interpretação de dados analisando cada etapa do fluxo desde a seleção 23 Capítulo 1 Introdução préprocessamento e mineração até a avaliação e visualização de padrões com vistas à geração de insights acionáveis e sustentáveis para uso estratégico no ambiente comercial Examinar à luz de estudos existentes a influência de percepções gerenciais e experiências de mercado na tomada de decisão estratégica em contextos comerciais compreendendo de que maneira fatores subjetivos e heurísticos interagem com os dados quantitativos para formar estratégias híbridas que conciliam análise baseada em evidências com a intuição executiva 13 JUSTIFICATIVA DO TRABALHO A presente dissertação justificase pelo interesse em aprofundar a discussão acadêmica sobre metodologias de segmentação de clientes no contexto B2B com base em métricas de lucratividade como o Lifetime Value LTV Em mercados cada vez mais competitivos e orientados por dados a capacidade de identificar os clientes mais valiosos e direcionar esforços de maneira estratégica tornouse um diferencial crítico para empresas que buscam maximizar o retorno sobre seus investimentos comerciais Nesse sentido a segmentação orientada por valor tem sido amplamente destacada em estudos recentes como uma abordagem eficaz para subsidiar decisões tanto estratégicas quanto operacionais especialmente em setores que demandam racionalização de recursos e gestão otimizada de carteiras de clientes WU et al 2023 WANG et al 2019 A análise da literatura especializada evidencia que as práticas de segmentação com apoio de algoritmos e modelos preditivos vêm se consolidando como importantes ferramentas de suporte técnico à tomada de decisão Em particular a integração desses métodos ao processo de descoberta de conhecimento em bases de dados KDD Knowledge Discovery in Databases amplia significativamente a capacidade de transformar grandes volumes de dados brutos em informações relevantes e acionáveis Essa abordagem conforme discutido por Fayyad et al 1996 Han Kamber e Pei 2011 permite a construção 24 Capítulo 1 Introdução de modelos analíticos robustos com potencial para revelar padrões ocultos no comportamento de clientes e apoiar estratégias comerciais baseadas em evidências Além disso a relevância da presente pesquisa também se justifica pela necessidade de compreender em profundidade como métricas como o CAC Customer Acquisition Cost e o churn taxa de evasão de clientes impactam diretamente na modelagem do LTV influenciando a priorização de ações comerciais e a alocação eficiente de recursos Tais indicadores quando utilizados de forma integrada à segmentação de clientes permitem não apenas projetar o valor futuro das contas existentes mas também identificar os perfis que representam maior risco ou menor retorno otimizando a performance da área de vendas e relacionamento Nesse contexto esta dissertação propõe a estruturação teórica de uma metodologia que considere tanto dados objetivos quantitativos típicos da etapa tática do planejamento quanto percepções subjetivas e gerenciais qualitativas típicas da etapa estratégica conforme referenciado por autores como Kanchanapoom e Chongwatpol 2022 A proposta busca assim refletir a realidade híbrida da gestão comercial que combina métricas precisas com a experiência acumulada dos gestores no trato com o mercado Tratase portanto de um estudo de caráter exploratório baseado em fontes secundárias e fundamentado em uma ampla revisão de literatura científica nacional e internacional Ao abordar a segmentação de clientes orientada à rentabilidade no escopo do modelo B2B esperase que esta pesquisa contribua de forma relevante para o avanço do debate metodológico na área de marketing analítico e inteligência comercial fornecendo subsídios para práticas mais eficientes sustentáveis e alinhadas às exigências do mercado contemporâneo 14 LIMITAÇÕES DO TRABALHO Este estudo apresenta algumas limitações que devem ser consideradas tanto no delineamento da proposta metodológica quanto na análise dos resultados obtidos A seguir são detaladas as principais restrições identificadas no desenvolvimento desta pesquisa 25 Capítulo 1 Introdução Amostra de dados secundários a metodologia proposta foi aplicada a um conjunto de dados secundários de acesso público o que limita a profundidade da análise em relação a setores específicos ou perfis de clientes com características muito particulares Como a base de dados utilizada não foi customizada para os objetivos específicos deste estudo pode haver lacunas em variáveis relevantes ou distorções provocadas pela falta de atualização ou pela forma de coleta dos dados originais Variabilidade das variáveis utilizadas na segmentação a segmentação foi construída com base em um conjunto restrito de variáveis quantitativas como faturamento número de funcionários e métricas simuladas de lucratividade ex LTV Embora essas variáveis sejam amplamente referenciadas na literatura sua adoção representa apenas uma fração das dimensões que poderiam compor o perfil completo de um cliente Aspectos como comportamento de compra histórico de relacionamento ou perfil de decisão foram considerados fora do escopo deste estudo o que pode impactar a riqueza da segmentação Complexidade dos modelos analisados mesmo sem a execução de testes empíricos avançados a compreensão conceitual de técnicas como clusterização análise de agrupamento e métricas preditivas exige certo grau de familiaridade com fundamentos estatísticos e algoritmos de machine learning Essa complexidade técnica pode dificultar a aplicação prática por profissionais de áreas comerciais ou de marketing que não possuem formação especializada em ciência de dados ou análise quantitativa Influência de fatores externos a proposta metodológica assume um contexto de estabilidade relativa nas condições de mercado No entanto fatores macroeconômicos institucionais ou regulatórios como crises econômicas alterações tributárias ou mudanças tecnológicas abruptas podem interferir significativamente nos padrões históricos de comportamento dos clientes afetando a validade dos modelos de segmentação construídos 26 Capítulo 1 Introdução com base em dados anteriores Subjetividade dos insights gerenciais uma parte relevante da análise estratégica deriva da experiência e da interpretação dos gestores o que introduz uma dimensão subjetiva à metodologia Essa variabilidade na percepção pode gerar diferentes conclusões a partir de um mesmo conjunto de dados dificultando a padronização da abordagem e reduzindo sua reprodutibilidade em contextos distintos Resistência à adoção de novos métodos a integração de técnicas de análise de dados ao processo decisório comercial ainda enfrenta resistência em muitas organizações seja por barreiras culturais ausência de infraestrutura tecnológica ou limitação de competências analíticas das equipes Essa resistência pode comprometer a efetividade da implementação prática da metodologia proposta Validade temporal dos dados por fim destacase que a base de dados utilizada representa uma fotografia estática de um determinado momento no tempo Dado o dinamismo dos mercados e a velocidade com que os perfis de consumo e relacionamento se transformam é possível que os agrupamentos e inferências gerados percam validade em curto ou médio prazo se não forem atualizados periodicamente Essa limitação reforça a necessidade de reavaliações frequentes do modelo para garantir sua aderência à realidade comercial vigente 15 ESTRUTURA DO TRABALHO A organização deste trabalho foi planejada de modo a proporcionar uma leitura fluida clara e didática permitindo ao leitor compreender todas as etapas da pesquisa desde a contextualização do problema até os resultados obtidos e suas possíveis aplicações práticas O conteúdo foi estruturado em capítulos que se complementam e oferecem uma visão completa do processo investigativo e da 27 Capítulo 1 Introdução proposta de segmentação de clientes utilizando técnicas de ciência de dados A seguir descrevese detalhadamente a composição de cada capítulo Capítulo 1 Introdução Este capítulo apresenta o contexto geral da pesquisa situando o leitor em relação ao tema estudado e sua relevância no ambiente corporativo especialmente no setor B2B São descritos o problema de pesquisa os objetivos gerais e específicos do estudo bem como sua justificativa com base na importância da segmentação como estratégia para aprimorar a eficiência comercial das empresas Além disso são mencionadas as limitações encontradas no desenvolvimento da pesquisa e é detalhada a estrutura adotada no corpo do trabalho Capítulo 2 Revisão da Literatura Neste capítulo são discutidos os principais conceitos teóricos que fundamentam o estudo reunindo contribuições de autores relevantes na área de marketing ciência de dados e inteligência de negócios A revisão aborda o processo de KDD Knowledge Discovery in Databases destacando etapas como o tratamento e transformação dos dados além da aplicação de técnicas de mineração para fins de classificação e agrupamento São apresentados também os fundamentos da segmentação de clientes com foco nos desafios específicos do mercado B2B e discutidas as métricas CAC Custo de Aquisição de Clientes e LTV Lifetime Value que oferecem base para decisões mais estratégicas nas áreas de vendas e marketing Capítulo 3 Trabalhos Correlatos Esta seção apresenta uma análise comparativa de pesquisas e projetos acadêmicos que abordam temas semelhantes ao proposto neste estudo A identificação de abordagens metodológicas e resultados obtidos por outros autores contribui para validar a relevância do problema estudado além de indicar caminhos já explorados e oportunidades de aprofundamento ainda pouco discutidas na literatura Capítulo 4 Metodologia 28 Capítulo 1 Introdução O capítulo metodológico descreve de forma detalhada os procedimentos adotados para a execução da pesquisa prática São explicadas as etapas de preparação e análise dos dados a escolha do algoritmo KMeans para a clusterização dos clientes e a simulação das métricas de negócio utilizadas para avaliação dos grupos Também são listadas as ferramentas e linguagens de programação utilizadas no processo como Python e bibliotecas como Pandas Scikitlearn e Matplotlib além das justificativas para as decisões tomadas ao longo do desenvolvimento do experimento Capítulo 5 Resultados e Discussão Aqui são apresentados os resultados obtidos com a aplicação do modelo de clusterização com destaque para as características e médias de cada grupo identificado Os dados são discutidos à luz dos objetivos do trabalho evidenciando como a segmentação pode auxiliar na tomada de decisões mais inteligentes no relacionamento com os clientes Também são discutidas as implicações práticas de cada cluster com sugestões de estratégias específicas de atendimento marketing e retenção Conclusão A conclusão retoma os objetivos propostos inicialmente e avalia o grau em que foram atingidos Também são destacados os principais achados do trabalho e suas contribuições para o campo da gestão comercial e da ciência de dados aplicada ao marketing Por fim são apresentadas sugestões de continuidade da pesquisa indicando formas de aprimorar o modelo proposto com o uso de dados mais completos ou técnicas mais avançadas de aprendizado de máquina Referências Esta seção contém a lista completa das obras artigos livros e materiais utilizados ao longo do desenvolvimento da pesquisa devidamente organizados conforme as normas da Associação Brasileira de Normas Técnicas ABNT permitindo que o leitor identifique as fontes consultadas para aprofundamento Anexos 29 Capítulo 1 Introdução Por fim os anexos reúnem os elementos complementares que não foram incluídos no corpo principal do texto por questões de fluidez mas que são importantes para demonstrar a aplicação prática do trabalho como códigosfonte utilizados nas análises tabelas completas gráficos e prints do ambiente de desenvolvimento 30 CAPÍTULO II 2REVISÃO DA LITERATURA 21 PROCESSO DE KNOWLEDGE DISCOVERY IN DATABASE KDD A descoberta de conhecimento em bases de dados conhecida pelo termo em inglês Knowledge Discovery in Databases KDD representa um processo sistemático e interdisciplinar voltado para a extração de informações úteis e conhecimento relevante a partir de grandes volumes de dados Esse processo compreende uma série de etapas interligadas que vão desde a seleção e pré processamento dos dados até a mineração propriamente dita e a posterior interpretação dos padrões extraídos Conforme apontam Han et al 2011 as fases iniciais do KDD incluem a limpeza integração seleção e transformação dos dados que antecedem a aplicação dos algoritmos de mineração voltados à identificação de padrões significativos O crescimento exponencial na geração e armazenamento de dados em diversas áreas do conhecimento tem ampliado significativamente a relevância do KDD A capacidade de transformar dados brutos em conhecimento estratégico tornase essencial para a tomada de decisões orientadas por dados Nesse cenário destacase a necessidade de métodos eficazes para lidar com a complexidade o volume e a variabilidade das informações disponíveis A precisão e a qualidade dos dados tornamse assim elementos centrais para o sucesso do processo de descoberta Dados incompletos inconsistentes ou irrelevantes podem comprometer diretamente os resultados obtidos levando a interpretações errôneas ou a descobertas ineficazes HAN et al 2011 Dessa forma a preparação dos dados é considerada uma etapa crítica no processo de KDD Essa preparação envolve atividades como a limpeza de inconsistências a normalização para uniformização dos formatos e a transformação dos dados em estruturas adequadas para análise Segundo Han et al 2011 a eficácia dos algoritmos de mineração de dados está intrinsecamente ligada à qualidade dos dados que recebem como entrada Portanto uma preparação 31 meticulosa contribui significativamente para garantir que os padrões extraídos sejam confiáveis coerentes e sobretudo úteis no contexto aplicado 32 Capítulo 2 Revisão da Literatura Um exemplo prático da aplicação bemsucedida das técnicas de KDD encontrase no estudo conduzido por Ekstrand et al 2010 que aborda sistemas de recomendação baseados em filtragem colaborativa Nesse estudo os autores demonstram como a análise de grandes volumes de dados sobre o comportamento e as preferências dos usuários pode ser utilizada para gerar sugestões personalizadas em plataformas interativas Essa abordagem não apenas melhora a experiência do usuário mas também otimiza a eficácia dos sistemas de recomendação ressaltando o valor do KDD na personalização e na relevância das informações apresentadas Complementando essa perspectiva Fayyad et al 1996 definem o KDD como um campo interdisciplinar cuja finalidade é extrair conhecimento útil a partir de grandes conjuntos de dados Os autores descrevem o processo como composto por várias etapas fundamentais incluindo a seleção a limpeza o enriquecimento e a transformação dos dados seguidas pela aplicação de algoritmos de mineração para a identificação de padrões relevantes Eles ainda destacam que a importância crescente do KDD está diretamente relacionada ao avanço da tecnologia e à consequente ampliação do volume de dados disponível para análise o que impõe a necessidade de métodos analíticos robustos e eficientes A compreensão detalhada do processo de KDD revela não apenas a complexidade técnica envolvida na manipulação e análise de grandes volumes de dados mas também a necessidade de uma abordagem sistemática e bem estruturada Conforme ilustrado na Figura 01 o KDD é um processo iterativo composto por diversas etapas interdependentes que se iniciam com a seleção dos dados e se estendem até a descoberta e validação de padrões Cada uma dessas etapas contribui para refinar e preparar os dados aumentando progressivamente sua qualidade e potencial analítico A Figura 01 não apenas delimita as fases do KDD mas também evidencia a conexão dinâmica entre elas sugerindo que o processo de descoberta de conhecimento é cíclico e adaptável Isso implica que a cada iteração os dados podem ser reavaliados e ajustados com base nos resultados anteriores promovendo uma melhoria contínua na qualidade da análise Tal abordagem é indispensável em contextos onde a precisão e a relevância das informações extraídas são determinantes para o sucesso de projetos analíticos 33 Capítulo 2 Revisão da Literatura Diante do crescente volume e diversidade de dados disponíveis a aplicação do KDD tornase uma estratégia essencial para organizações que desejam transformar seus dados em insights acionáveis Através de uma análise cuidadosa e estruturada é possível converter grandes quantidades de dados brutos em conhecimento significativo capaz de embasar decisões mais informadas estratégicas e alinhadas aos objetivos organizacionais Nesse sentido a Figura 01 cumpre um papel duplo além de representar visualmente as fases do processo de KDD também atua como um guia conceitual que evidencia a importância da interdependência e do rigor em cada uma das etapas envolvidas na descoberta de conhecimento em bases de dados Figura 1 Uma visão geral das etapas que compõem o processo KDD Fonte Fayyad et al 1996 211 Tratamento de dados A etapa de tratamento de dados dentro do processo de descoberta de conhecimento em bases de dados KDD representa uma fase crítica para assegurar a confiabilidade integridade e usabilidade dos dados que serão utilizados nas etapas subsequentes de análise Esta fase visa preparar os dados de forma a possibilitar que os algoritmos de mineração operem com máxima eficiência e precisão Para isso tornase necessário realizar uma série de procedimentos como 34 Capítulo 2 Revisão da Literatura a identificação e correção de ruídos a resolução de inconsistências e a normalização dos dados Entre as tarefas mais comuns do tratamento de dados destacamse a padronização de formatos o preenchimento ou remoção de valores ausentes a detecção e tratamento de outliers bem como a transformação de variáveis categóricas em representações numéricas adequadas para os modelos analíticos Esses procedimentos são fundamentais não apenas para garantir a qualidade dos dados mas também para aumentar a acurácia dos modelos reduzir o tempo de processamento computacional e evitar distorções nos resultados que possam comprometer a interpretação e aplicação prática dos padrões descobertos Nesse contexto Cheng e Chen 2009 enfatizam que o tratamento e o pré processamento dos dados constituem fatores determinantes para o desempenho de algoritmos de agrupamento especialmente em aplicações voltadas a sistemas de Customer Relationship Management CRM Segundo os autores a eficácia desses algoritmos depende diretamente da qualidade dos dados de entrada uma vez que a presença de ruídos valores extremos ou variáveis mal representadas pode prejudicar a formação de clusters coesos e semanticamente relevantes Assim o sucesso da segmentação de clientes e por consequência das estratégias de marketing orientadas por dados está intrinsecamente ligado à minuciosidade do pré processamento realizado Portanto a etapa de tratamento de dados não deve ser encarada como uma simples etapa preparatória mas como uma fase estratégica que influencia diretamente a qualidade do conhecimento extraído e sua utilidade na tomada de decisão A negligência nesta etapa pode comprometer todo o processo de KDD enquanto sua execução cuidadosa contribui para gerar resultados mais robustos interpretáveis e acionáveis 2111 Eliminando Ruídos E Inconsistências Remover o excesso de informações ruídos e inconsistências representa uma etapa fundamental na preparação dos dados para o processo de Knowledge 35 Capítulo 2 Revisão da Literatura Discovery in Databases KDD uma vez que dados imprecisos ou com baixa qualidade podem comprometer significativamente os resultados obtidos nas etapas subsequentes de mineração e análise A presença de valores duplicados erros de entrada lacunas ou informações incoerentes tende a distorcer os padrões e correlações descobertos levando a decisões equivocadas e interpretações falhas Além disso quanto maior o volume de dados e mais diversas as fontes envolvidas maior a complexidade dos problemas de qualidade que podem surgir exigindo metodologias mais robustas para sua resolução De acordo com Han Kamber e Pei 2011 o préprocessamento dos dados é composto por diversas técnicas incluindo o preenchimento de valores ausentes a suavização de ruídos a correção de inconsistências a detecção e remoção de outliers além da padronização e transformação de atributos Essas etapas são essenciais para garantir a integridade a completude e a utilidade do conjunto de dados antes de sua exploração analítica A negligência nessa fase pode comprometer a construção de modelos de aprendizado gerar viés nos resultados e dificultar a replicabilidade dos experimentos analíticos afetando diretamente a tomada de decisões Entre os métodos mais comuns de suavização destacamse os filtros de média e mediana que substituem valores individuais por médias ou medianas calculadas a partir de seus vizinhos mais próximos reduzindo assim a variabilidade aleatória Já a suavização por binning agrupa os dados em intervalos bins e ajusta os valores com base em estatísticas internas de cada intervalo promovendo homogeneidade local A suavização por regressão por sua vez ajusta uma função matemática linear ou não linear aos dados permitindo a identificação e atenuação de tendências ou flutuações acentuadas Essas técnicas são particularmente úteis em conjuntos de dados com alta variabilidade como séries temporais financeiras dados de sensores ou registros de comportamento de usuários A detecção de outliers é outra etapa crítica pois esses valores atípicos podem interferir negativamente nos resultados dos modelos estatísticos e algoritmos de aprendizado de máquina Métodos estatísticos convencionais baseados em medidas de tendência central e dispersão como média e desvio padrão são frequentemente utilizados para identificar e remover esses pontos anômalos 36 Capítulo 2 Revisão da Literatura Contudo técnicas mais avançadas como o algoritmo DBSCAN DensityBased Spatial Clustering of Applications with Noise proposto por Ester et al 1996 têm se mostrado eficazes para detectar outliers em grandes volumes de dados multidimensionais pois consideram a densidade local de pontos ao invés de simples critérios globais A combinação de métodos estatísticos e algoritmos de aprendizado não supervisionado é em muitos casos recomendada para garantir maior precisão na detecção desses casos extremos Além disso inconsistências nos dados muitas vezes resultantes da fusão de diferentes bases de dados erros de digitação ou atualizações mal conduzidas devem ser tratadas por meio de inspeções manuais validações cruzadas e aplicação de regras de integridade baseadas no domínio dos dados Isso inclui a verificação de chaves primárias integridade referencial formatos esperados e padrões semânticos consistentes O uso de ferramentas automatizadas de data cleaning também tem ganhado espaço especialmente em contextos que envolvem grandes volumes de dados e necessidade de escalabilidade Ferramentas como Talend Trifacta e Apache Nifi vêm sendo amplamente adotadas para automatizar processos de limpeza enriquecimento e integração de dados em pipelines modernas de engenharia de dados Complementando esse panorama Do e Batzoglou 2008 em estudos voltados para bioinformática destacam a importância da normalização e padronização como elementos fundamentais para garantir a comparabilidade entre conjuntos de dados heterogêneos Essas técnicas ajustam os dados para uma escala comum prevenindo que atributos com magnitudes diferentes dominem o processo de mineração A normalização é especialmente importante em algoritmos baseados em distância como kmeans redes neurais e máquinas de vetor de suporte nos quais variáveis em escalas distintas podem afetar desproporcionalmente a formação de padrões e decisões de agrupamento No campo dos sistemas de recomendação Ekstrand Riedl e Konstan 2010 demonstram como abordagens sofisticadas de filtragem de dados incluindo técnicas baseadas em conteúdo e colaborativas dependem fortemente da qualidade e coerência dos dados de entrada Uma base mal preparada pode gerar recomendações irrelevantes ou enviesadas prejudicando a experiência do usuário e reduzindo a eficácia dos sistemas inteligentes Nesses cenários a etapa de 37 Capítulo 2 Revisão da Literatura tratamento e préprocessamento influencia diretamente a confiabilidade dos sistemas e sua aceitação por parte dos usuários finais Assim a manipulação criteriosa e sistemática das informações tornase essencial não apenas para garantir a acurácia dos modelos e interpretações derivadas da mineração de dados mas também para assegurar a reprodutibilidade dos resultados e sua aplicabilidade em contextos reais A qualidade dos dados está diretamente relacionada à capacidade da organização de extrair conhecimento confiável relevante e acionável contribuindo de forma decisiva para a orientação estratégica e a geração de vantagem competitiva sustentada O investimento em boas práticas de preparação de dados deve ser encarado como parte fundamental da cultura analítica das empresas impactando diretamente os resultados de curto e longo prazo Em síntese a preparação adequada dos dados não é uma etapa acessória mas sim uma condição sine qua non para o sucesso de qualquer projeto baseado em análise de dados No contexto corporativo essa etapa representa a base sobre a qual serão construídas as estratégias analíticas e preditivas justificando o investimento em processos e ferramentas que garantam a excelência na gestão da informação A negligência nesse estágio pode comprometer toda a cadeia de valor analítico enquanto sua execução cuidadosa abre caminho para decisões mais eficazes processos mais eficientes e inovação orientada por dados 2112 Tratando Valores Ausentes O correto tratamento de dados ausentes é uma etapa essencial no processo de preparação de dados para o Knowledge Discovery in Databases KDD pois assegura a qualidade consistência e integridade do conjunto de dados Dados faltantes se não tratados adequadamente podem comprometer a validade das análises estatísticas distorcer resultados e consequentemente impactar negativamente a eficácia dos modelos de mineração de dados Assim é fundamental adotar abordagens criteriosas e fundamentadas para a identificação análise e tratamento dessas lacunas garantindo que as inferências obtidas sejam 38 Capítulo 2 Revisão da Literatura confiáveis e representativas A negligência nesse aspecto compromete não apenas a robustez dos modelos mas também a confiança nas decisões baseadas em dados o que é especialmente crítico em ambientes empresariais e científicos A primeira etapa crítica consiste na identificação da existência e da distribuição dos valores ausentes no banco de dados Isso envolve a quantificação do volume de dados faltantes por variável e a localização exata de onde ocorrem essas ausências Essa análise inicial fornece uma visão geral da extensão do problema e auxilia na definição de estratégias apropriadas de imputação ou eliminação de registros quando necessário Ferramentas como mapas de calor e gráficos de dispersão podem ser utilizadas para visualizar as lacunas de forma clara permitindo um diagnóstico mais assertivo e facilitando a comunicação com stakeholders Posteriormente tornase imprescindível realizar uma análise do padrão de ocorrência dos dados ausentes Essa análise visa determinar se os dados estão ausentes completamente ao acaso Missing Completely at Random MCAR ausentes ao acaso Missing at Random MAR ou ausentes de forma não aleatória Not Missing at Random NMAR A identificação desse padrão é decisiva para a seleção da técnica de tratamento mais eficaz Por exemplo se os dados estão ausentes de forma sistemática isso pode refletir vieses no processo de coleta falhas de instrumentação ou ainda uma relação estrutural com outras variáveis do conjunto de dados Compreender o mecanismo de ausência permite reduzir o risco de interpretações equivocadas além de melhorar a precisão dos modelos preditivos Riedl e Konstan 2011 ao analisarem os impactos dos valores ausentes em sistemas de recomendação ressaltam que a ausência de dados pode afetar diretamente a capacidade de personalização desses sistemas Os autores destacam que dados incompletos reduzem a acurácia das recomendações além de comprometer a robustez e a equidade dos algoritmos especialmente em abordagens colaborativas que dependem fortemente da completude das interações entre usuários e itens Isso evidencia como o tratamento adequado de dados ausentes não é apenas uma questão técnica mas uma necessidade funcional para garantir a performance e confiabilidade de sistemas inteligentes 39 Capítulo 2 Revisão da Literatura Entre as estratégias mais empregadas para lidar com dados ausentes destacamse Imputação por média mediana ou moda utilizada em situações de baixa complexidade onde os valores ausentes são substituídos por estatísticas simples de tendência central É uma abordagem eficiente em bases com pequenas proporções de ausência e pouca variabilidade Imputação por regressão quando há uma relação identificável entre a variável ausente e outras variáveis do conjunto é possível estimar os valores ausentes com base em modelos de regressão linear ou múltipla mantendo maior coerência estatística entre os atributos Técnicas de aprendizado de máquina como kNearest Neighbors kNN e redes neurais também são aplicadas para imputar valores com base em padrões complexos de similaridade ou aprendizado supervisionado sendo úteis para bases com estrutura multidimensional e interdependência entre variáveis Eliminação de registros ou variáveis adotada quando a quantidade de dados ausentes é suficientemente pequena para não comprometer a integridade do conjunto ou quando a variável não possui relevância significativa para o objetivo do modelo Tratase de uma solução prática mas deve ser aplicada com cautela para evitar perda de informação relevante Modelos múltiplos de imputação como o Multiple Imputation by Chained Equations MICE considerados mais sofisticados permitem a geração de múltiplos conjuntos imputados incorporando a variabilidade e incerteza associadas ao processo Essa abordagem melhora a validade estatística das análises posteriores especialmente em estudos inferenciais A escolha da técnica de tratamento mais adequada deve considerar não apenas a proporção de dados faltantes mas também o contexto analítico a estrutura das variáveis e o impacto potencial sobre os resultados Um tratamento 40 Capítulo 2 Revisão da Literatura inadequado pode introduzir viés mascarar relações reais ou gerar interpretações enganosas Por isso é importante realizar testes comparativos entre métodos de imputação e avaliar os efeitos em métricas de desempenho dos modelos subsequentes Ademais o tratamento de dados ausentes deve ser documentado de forma transparente para garantir a rastreabilidade e reprodutibilidade dos resultados Em ambientes corporativos onde decisões estratégicas são tomadas com base em análises preditivas negligenciar essa etapa pode acarretar prejuízos operacionais e financeiros significativos A adoção de uma política de governança de dados com protocolos claros para tratamento de lacunas tornase um diferencial competitivo e de conformidade Portanto a gestão criteriosa de dados faltantes é uma prática indispensável no ciclo de vida da ciência de dados Quando bem executada ela assegura a fidelidade das análises potencializa a acurácia dos modelos e contribui para a geração de conhecimento de alto valor agregado alinhado às metas organizacionais e à realidade dos negócios Tratase de uma etapa que embora muitas vezes invisível aos olhos do usuário final sustenta toda a credibilidade e aplicabilidade dos resultados analíticos sendo essencial para o sucesso de qualquer projeto orientado por dados 2113 Normalização Dos Dados A normalização dos dados constitui uma etapa essencial no processo de preparação de dados assegurando que os atributos estejam expressos em escalas compatíveis e adequadas para posterior análise estatística e modelagem computacional Este procedimento visa padronizar os valores dos atributos numéricos de modo que todos tenham igual influência sobre os algoritmos de mineração de dados e aprendizado de máquina Sem essa padronização variáveis com escalas numericamente mais amplas podem dominar o processo de análise conduzindo a resultados enviesados e interpretações equivocadas Esse problema é especialmente crítico em algoritmos que dependem de métricas de distância como a distância euclidiana empregada em métodos de 41 Capítulo 2 Revisão da Literatura clusterização ex kmeans e classificação ex kNN Por exemplo em um conjunto de dados que inclui variáveis como faturamento anual em milhões e número de funcionários em dezenas a variável com maior escala tenderá a influenciar desproporcionalmente os resultados caso não haja um reescalonamento adequado A normalização nesse caso garante que cada atributo contribua de forma equitativa no cálculo das distâncias preservando a integridade analítica do modelo Entre as principais motivações para normalizar os dados destacamse A eliminação de unidades heterogêneas que é crucial em contextos onde variáveis são expressas em unidades diferentes por exemplo metros reais porcentagens Essa heterogeneidade se não tratada compromete a comparabilidade entre atributos A melhoria da convergência de algoritmos de otimização como o gradiente descendente utilizado em redes neurais e regressão logística que tende a alcançar soluções ótimas mais rapidamente quando os dados estão em escalas semelhantes O balanceamento entre variáveis garantindo que nenhuma variável domine o modelo apenas por apresentar valores numéricos mais elevados A ausência da normalização pode impactar diretamente a eficácia dos modelos levando a previsões imprecisas instabilidade nos parâmetros estatísticos e dificuldade na extração de conhecimento útil o que compromete a qualidade das decisões estratégicas baseadas em dados No contexto de modelos de gestão de receita por exemplo Cao et al 2023 reforçam a importância da normalização como etapa fundamental para a correta aplicação de modelos logísticos multinomiais os quais são amplamente utilizados para prever comportamentos de compra A normalização segundo os autores não apenas facilita a modelagem e interpretação como também aumenta a robustez e a precisão das estimativas especialmente em bases de dados heterogêneas e de alta variabilidade Conforme discutido por Han et al 2011 várias técnicas podem ser aplicadas para normalizar os dados sendo escolhidas de acordo com as características 42 Capítulo 2 Revisão da Literatura específicas da base de dados e os objetivos da análise Entre as abordagens mais comuns destacamse Escalonamento MinMax Redimensiona os valores para um intervalo prédefinido geralmente 0 1 É apropriado quando os dados não apresentam valores extremos significativos pois outliers podem distorcer o resultado do reescalonamento Padronização ZScore Transforma os dados para que tenham média zero e desvio padrão um tornandoos compatíveis com algoritmos que assumem distribuição normal dos dados É uma técnica amplamente utilizada quando se espera simetria estatística Normalização pelo Máximo Absoluto Reescala os dados com base no valor absoluto máximo de modo que todos os valores estejam entre 1 e 1 Essa abordagem é útil para dados esparsos frequentemente encontrados em aplicações de aprendizado profundo e processamento de linguagem natural Escalonamento Robusto Robust Scaler Baseado na mediana e no intervalo interquartil IQR essa técnica é especialmente eficaz na presença de outliers pois é menos sensível a valores extremos É indicada para bases de dados reais onde a presença de anomalias é comum e a robustez estatística é desejável Cada uma dessas técnicas apresenta vantagens e limitações específicas e a escolha apropriada depende tanto das propriedades estatísticas da base de dados quanto do modelo analítico a ser utilizado Ignorar essa etapa pode não apenas reduzir a performance computacional do modelo mas também comprometer seriamente a qualidade e confiabilidade das inferências realizadas a partir dos dados Em síntese a normalização é uma etapa estratégica e indispensável no ciclo de vida da ciência de dados Ao assegurar uma base de dados homogênea balanceada e escalonada ela melhora o desempenho dos modelos analíticos evita distorções nas análises e fortalece a precisão das previsões e a interpretação dos resultados obtidos Dessa forma contribui diretamente para o sucesso das iniciativas de mineração de dados descoberta de conhecimento e tomada de decisão baseada em evidências 43 Capítulo 2 Revisão da Literatura 2114 Outliers BOXPLOT Os valores atípicos também conhecidos como outliers são observações que se desviam significativamente do padrão geral de um conjunto de dados Esses valores extremos podem surgir por diferentes razões como erros de mensuração falhas na entrada de dados flutuações experimentais ou em muitos casos características genuínas e relevantes que refletem fenômenos incomuns ou exceções significativas WASSERMAN 2020 Embora os outliers possam representar ruídos que distorcem a análise também podem oferecer informações importantes quando contextualizados corretamente Sua presença portanto deve ser avaliada com cautela considerando não apenas a natureza estatística da anomalia mas também sua possível relevância para o domínio de aplicação A presença de outliers tem um impacto direto sobre a qualidade das análises estatísticas e a confiabilidade dos modelos preditivos Eles podem influenciar métricas de tendência central como média e dispersão como desvio padrão enviesar modelos de regressão e comprometer o desempenho de algoritmos de aprendizado de máquina Em particular Cao et al 2023 demonstram que a remoção ou o tratamento adequado de outliers é essencial em modelos de previsão de demanda e gestão de receita que combinam estruturas de demanda independentes com modelos logit multinomial O estudo destaca como a presença de outliers pode levar à subestimação ou superestimação de demanda impactando negativamente a eficiência de decisões estratégicas como precificação e alocação de recursos Isso mostra que ignorar a existência de valores extremos pode acarretar sérias consequências na prática especialmente em contextos onde a acurácia dos dados é vital para decisões operacionais Para a detecção de outliers uma das ferramentas gráficas mais eficientes e amplamente utilizadas é o boxplot ou gráfico de caixa e bigodes Esse gráfico oferece uma representação visual da distribuição dos dados com base em medidas resumo como os quartis mediana mínimo e máximo e permite a identificação objetiva de valores discrepantes O Intervalo Interquartil IQR calculado como a diferença entre o terceiro quartil Q3 e o primeiro quartil Q1 é usado como base 44 Capítulo 2 Revisão da Literatura para definir os limites dos chamados bigodes do boxplot Valores que se encontram fora do intervalo compreendido entre Q1 15IQR e Q3 15IQR são considerados potenciais outliers e geralmente são destacados no gráfico por pontos individuais KRISHNAMURTHY DESHPANDE 2022 ZUUR IENO ELPHICK 2019 A simplicidade e clareza visual do boxplot o tornam especialmente valioso para análises exploratórias iniciais permitindo decisões rápidas quanto à necessidade de intervenções mais aprofundadas nos dados A análise gráfica por meio de boxplots é especialmente útil durante a fase de exploração de dados no processo de Knowledge Discovery in Databases KDD uma vez que permite uma rápida identificação de anomalias antes da aplicação de técnicas mais robustas de modelagem Em contextos de negócios saúde engenharia ou ciências sociais os outliers podem representar tanto riscos analíticos quanto oportunidades de descoberta dependendo de como são interpretados Em alguns casos esses valores extremos podem sinalizar mudanças importantes no comportamento dos dados revelando tendências emergentes ou eventos de alto impacto que merecem atenção especial Adicionalmente métodos estatísticos como o teste de Grubbs zscore padronizado e técnicas de clusterização como DBSCAN também são amplamente utilizados para detectar outliers em grandes volumes de dados O DBSCAN por exemplo identifica pontos que não pertencem a regiões de alta densidade sendo eficaz na detecção de outliers em conjuntos de dados multidimensionais Com o avanço da ciência de dados têmse adotado abordagens híbridas que combinam estatística clássica com algoritmos de aprendizado de máquina para classificar ponderar e até mesmo corrigir ou imputar valores discrepantes com maior grau de confiabilidade HAN et al 2011 Essas estratégias visam não apenas identificar mas também integrar inteligentemente os outliers ao processo analítico seja por meio de exclusão justificada ou pela adaptação dos modelos para lidar com essas variações Dessa forma a gestão criteriosa de outliers tornase uma etapa estratégica para garantir resultados analíticos mais robustos coerentes e aplicáveis em diferentes domínios 45 Capítulo 2 Revisão da Literatura 21141 Estrutura E Componentes De Um Boxplot O boxplot também conhecido como gráfico de caixa e bigodes boxand whisker plot é uma ferramenta gráfica amplamente utilizada na estatística exploratória para representar de forma sintética a distribuição de um conjunto de dados Sua principal função é apresentar visualmente cinco medidasresumo fundamentais valor mínimo primeiro quartil Q1 mediana Q2 terceiro quartil Q3 e valor máximo permitindo observar a dispersão a simetria e a presença de possíveis valores atípicos outliers em um conjunto de dados PAGANO GAUVREAU 2018 Essa técnica oferece uma visão clara da variabilidade dos dados e da densidade em torno dos quartis sendo particularmente eficaz na comparação entre distribuições distintas ou na identificação de assimetrias e desvios A seguir detalhamse os principais elementos constituintes do boxplot Mediana Q2 Representada por uma linha horizontal localizada dentro da caixa a mediana corresponde ao segundo quartil ou seja o ponto que separa os 50 inferiores dos 50 superiores dos dados É uma medida robusta de tendência central menos sensível a valores extremos do que a média aritmética FIELD MILES FIELD 2017 Caixa Q1 a Q3 A estrutura retangular do gráfico compreende a faixa entre o primeiro quartil Q1 25 dos dados e o terceiro quartil Q3 75 dos dados Esse intervalo denominado amplitude interquartil IQR Interquartile Range representa os 50 centrais dos dados excluindo os extremos inferiores e superiores A IQR é uma medida fundamental de dispersão eficaz para caracterizar a variabilidade dos dados sem a influência de outliers WASSERMAN 2020 WICKHAM GROLEMUND 2017 Bigodes Whiskers Os bigodes se estendem a partir das extremidades da caixa até os limites inferiores e superiores definidos como 15 vezes a IQR abaixo de Q1 e acima de Q3 Valores dentro desses limites são considerados normais na distribuição dos dados KRISHNAMURTHY DESHPANDE 46 Capítulo 2 Revisão da Literatura 2022 A extensão dos bigodes ajuda a visualizar a cauda da distribuição e identificar a assimetria Valores Atípicos Outliers Dados que se encontram fora dos limites dos bigodes são identificados como outliers e geralmente são representados por círculos asteriscos ou outros símbolos Esses valores podem indicar erros de medição registros incorretos ou fenômenos reais fora da distribuição esperada e merecem investigação especial pois podem influenciar de forma significativa análises estatísticas e decisões baseadas em dados ZUUR IENO ELPHICK 2019 Valores Mínimos e Máximos dentro dos limites Os extremos inferiores e superiores que ainda se encontram dentro dos limites definidos pelos bigodes representam os menores e maiores valores considerados regulares na distribuição Eles delimitam a cauda do conjunto de dados sem incluir os pontos considerados atípicos KABACOFF 2021 Além de sua simplicidade visual o boxplot é especialmente útil em contextos comparativos como quando se deseja analisar diferentes grupos ou categorias de uma variável Ao permitir a visualização simultânea de mediana dispersão e simetria o gráfico de caixa e bigodes tornase uma ferramenta indispensável em análises exploratórias diagnósticos estatísticos e em aplicações que envolvem a limpeza e validação de dados como no processo de Knowledge Discovery in Databases KDD A Figura 2 demonstra como as informações são visualmente dispostas Figura 2 Boxplot 47 Capítulo 2 Revisão da Literatura Fonte Adaptado pelo autor 2025 Os boxplots são ferramentas eficazes para a identificação de outliers análise de distribuição e comparação entre grupos de dados Neles os outliers são facilmente identificados como pontos fora dos bigodes facilitando a visualização de anomalias Além disso o boxplot permite uma rápida visualização da distribuição dos dados evidenciando a presença de simetria ou assimetria Ao comparar boxplots de diferentes grupos é possível identificar diferenças significativas na distribuição e na presença de outliers entre os grupos Ao usar boxplots é possível visualizar claramente como os outliers podem influenciar a distribuição dos dados Por exemplo a presença de outliers pode distorcer a média puxandoa para cima ou para baixo Outliers também aumentam a variabilidade aparente dos dados refletida pelo comprimento dos bigodes do boxplot Identificar e tratar outliers pode levar a decisões mais informadas e precisas melhorando a qualidade das análises e previsões 2115 Uso Do Python No contexto acadêmico e científico contemporâneo o Python consolidouse como uma das principais linguagens de programação utilizadas para preparação análise e modelagem de dados sendo amplamente adotado em atividades de pesquisa ensino e desenvolvimento tecnológico Sua ascensão é atribuída à combinação de fatores como sintaxe intuitiva grande comunidade de 48 Capítulo 2 Revisão da Literatura desenvolvedores e um ecossistema robusto de bibliotecas especializadas para ciência de dados estatística aprendizado de máquina e inteligência artificial Segundo o Times Higher Education World University Rankings 2023 o Python é reconhecido como a linguagem padrão em 92 das 100 melhores universidades do mundo nos cursos de ciência de dados estatística aplicada engenharia da computação e áreas afins Esse dado evidencia sua consolidação não apenas como ferramenta de ensino mas também como plataforma técnica de referência na produção científica global A aplicabilidade do Python se destaca em particular nas diferentes etapas da descoberta de conhecimento em bases de dados KDD Knowledge Discovery in Databases desempenhando um papel estratégico em tarefas como Extração de dados de fontes estruturadas e não estruturadas Limpeza e transformação de dados brutos Análise exploratória e visualização gráfica Modelagem estatística e preditiva Validação e interpretação dos resultados Sua compatibilidade com ambientes interativos como o Jupyter Notebook permite uma abordagem altamente modular e reprodutível essencial tanto para ensino prático quanto para a validação científica de experimentos Essa flexibilidade favorece também o desenvolvimento colaborativo a documentação automatizada do processo analítico e a replicabilidade dos estudos Além do domínio acadêmico o Python expandiu significativamente sua presença no setor corporativo sendo utilizado por empresas dos mais diversos setores para construção de pipelines de dados automatizados sistemas de recomendação análises preditivas e modelos de machine learning em escala industrial Essa penetração no mercado profissional torna o Python uma ponte entre a formação acadêmica e as demandas do mundo corporativo representando uma vantagem competitiva significativa para profissionais da área como cientistas de dados engenheiros de machine learning analistas quantitativos e gestores de dados 49 Capítulo 2 Revisão da Literatura Sua capacidade de integrarse a outras linguagens como R C SQL e Java e plataformas como Hadoop Spark TensorFlow e AWS amplia ainda mais suas possibilidades de uso permitindo desde operações simples de tratamento de dados até implementações avançadas de inteligência artificial deep learning e mineração de dados em tempo real Dessa forma a adoção do Python no ciclo de vida da ciência de dados contribui de maneira decisiva para a adequação e qualidade dos dados para a construção de modelos robustos e para a extração de conhecimento acionável Sua utilização promove eficiência computacional transparência no processo analítico e agilidade na entrega de insights valores indispensáveis tanto na pesquisa científica quanto na análise de dados aplicada a negócios A seguir destacamse algumas das principais bibliotecas do ecossistema Python e suas funcionalidades essenciais evidenciando o papel central dessas ferramentas na manipulação eficaz análise e modelagem de dados 21151 Pandas A biblioteca Pandas criada por Wes McKinney em 2010 rapidamente se estabeleceu como uma das ferramentas mais influentes e amplamente utilizadas no ecossistema Python para ciência de dados análise estatística e manipulação de dados estruturados Seu desenvolvimento teve como objetivo suprir uma lacuna na linguagem Python em relação à manipulação eficiente de grandes volumes de dados especialmente em aplicações que demandam o tratamento de séries temporais e dados tabulares numéricos McKINNEY 2010 Desde seu lançamento Pandas tornouse uma ferramenta essencial tanto no meio acadêmico quanto no setor empresarial sendo parte fundamental dos fluxos de trabalho de projetos de KDD Knowledge Discovery in Databases Sua popularidade devese à sua capacidade de simplificar operações complexas de tratamento e análise de dados além de sua sintaxe intuitiva desempenho robusto e ampla compatibilidade com outras bibliotecas do ecossistema científico Python Entre suas funcionalidades centrais destacamse duas estruturas de dados fundamentais 50 Capítulo 2 Revisão da Literatura DataFrame estrutura bidimensional semelhante a uma planilha composta por colunas rotuladas e com tipos de dados possivelmente heterogêneos Permite visualização filtragem e manipulação de dados com alta flexibilidade Series estrutura unidimensional comparável a um vetor indexado adequada para manipulação de uma única variável ou coluna de dados Essas abstrações proporcionam ao analista um modelo de dados altamente expressivo capaz de representar conjuntos complexos de informações de forma acessível e organizada favorecendo desde tarefas de exploração inicial dos dados até operações mais sofisticadas de engenharia de atributos A biblioteca também se destaca por seu suporte abrangente à leitura e gravação de dados em múltiplos formatos como CSV Excel JSON HDF5 Parquet e conexões com bancos relacionais via SQL Essa funcionalidade é crítica em contextos de integração de dados heterogêneos permitindo interoperabilidade entre sistemas e facilitando a ingestão de dados em projetos de Business Intelligence ETL Extract Transform Load e análise de grandes volumes de dados McKINNEY 2010 Além disso Pandas oferece um conjunto extensivo de operações para limpeza transformação e estruturação dos dados tais como Seleção e indexação por rótulos ou posições Filtragem condicional e aplicação de expressões booleanas Ordenação e reorganização de colunas ou linhas Criação de colunas derivadas com base em transformações Substituição de valores mapeamentos categóricos e conversão de tipos de dados Reestruturação de dados com técnicas de pivotamento pivot e desempilhamento meltunstack Essas operações tornamse particularmente úteis nas etapas de pré processamento de dados que antecedem a aplicação de algoritmos de modelagem estatística ou aprendizado de máquina 51 Capítulo 2 Revisão da Literatura Outro recurso poderoso da biblioteca é a função groupby que permite o agrupamento e agregação de dados com base em categorias específicas Essa funcionalidade é amplamente empregada em análises comparativas construção de estatísticas descritivas por grupo identificação de padrões em diferentes níveis hierárquicos e produção de indicadores sumarizados O tratamento de valores ausentes NaN uma das etapas mais críticas na preparação dos dados também é eficientemente gerenciado pelo Pandas por meio de métodos como fillna preenchimento com média mediana ou valores arbitrários dropna remoção de entradas incompletas e técnicas de interpolação o que confere à biblioteca ampla capacidade de lidar com lacunas e inconsistências nos dados comuns em bases reais Pandas ainda disponibiliza métodos para mesclagem e junção de datasets como merge join e concat que permitem combinar múltiplas fontes de informação com base em chaves compartilhadas ou critérios personalizados Essas operações são cruciais para a construção de bases consolidadas principalmente em cenários de data integration e data fusion Sua interoperabilidade com bibliotecas como NumPy operações numéricas vetoriais Matplotlib e Seaborn visualização de dados Scikitlearn machine learning e Statsmodels modelagem estatística transforma o Pandas em uma ferramenta central em pipelines de análise e descoberta de conhecimento A biblioteca é também compatível com ambientes como Jupyter Notebook e plataformas de cloud computing o que facilita sua adoção em ambientes colaborativos e escaláveis Em síntese o Pandas não é apenas uma biblioteca de apoio à análise de dados mas um pilar estratégico em todo o processo de descoberta de conhecimento desde a ingestão e preparação dos dados até a geração de insights interpretáveis Sua adoção generalizada aliada a uma documentação extensa e uma comunidade ativa de desenvolvedores e usuários evidencia seu papel como ferramenta indispensável na prática moderna da ciência de dados e em projetos orientados à extração de valor a partir de dados estruturados 52 Capítulo 2 Revisão da Literatura 21152 Numpy A biblioteca NumPy Numerical Python representa um dos pilares fundamentais no ecossistema de ciência de dados e computação científica com Python Desenvolvida inicialmente por Travis Oliphant a partir do projeto Numeric e formalizada como biblioteca independente em meados dos anos 2000 o NumPy é atualmente mantido como projeto de código aberto e amplamente apoiado por comunidades acadêmicas e industriais Conforme destacado por Harris et al 2020 sua adoção generalizada se deve à sua eficiência computacional versatilidade matemática e à sua posição como base para a maioria das bibliotecas científicas da linguagem Python No contexto da descoberta de conhecimento em bases de dados KDD Knowledge Discovery in Databases o NumPy tem papel estratégico sobretudo nas etapas de representação transformação análise quantitativa e préprocessamento de dados Sua principal estrutura o ndarray Ndimensional array permite a criação e manipulação de arrays homogêneos multidimensionais possibilitando a execução de operações matemáticas complexas com alto desempenho e baixo custo computacional Ao substituir as listas nativas do Python que são menos eficientes para manipulações numéricas o ndarray oferece melhorias significativas em velocidade escalabilidade e uso de memória atributos cruciais em aplicações que lidam com grandes volumes de dados numéricos Entre as funcionalidades centrais do NumPy destacamse Criação e manipulação de arrays multidimensionais com suporte a operações de slicing reshaping flattening indexação lógica e booleana Um conjunto abrangente de operações matemáticas e estatísticas vetorizadas como soma produto escalar exponenciação médias desvio padrão mediana e variância Recursos de álgebra linear avançada via numpylinalg como decomposição matricial inversão de matrizes autovalores e solução de sistemas lineares Transformadas de Fourier funções trigonométricas e hiperbólicas 53 Capítulo 2 Revisão da Literatura Geração de números aleatórios com distribuições variadas uniforme normal binomial entre outras por meio do módulo numpyrandom Um dos grandes diferenciais da biblioteca reside em sua capacidade de vetorização que permite aplicar operações matemáticas diretamente sobre arrays inteiros sem a necessidade de laços loops explícitos Esse paradigma não só simplifica o código promovendo maior clareza e concisão como também oferece ganhos expressivos de desempenho uma vez que as operações vetorizadas são implementadas internamente em linguagem C o que garante baixa latência e alta eficiência computacional Outro recurso de grande valor é o broadcasting mecanismo que viabiliza a realização de operações aritméticas entre arrays de diferentes formas shapes sem a necessidade de cópias redundantes ou expansões explícitas Esse recurso é amplamente empregado em modelagem matemática simulações numéricas redes neurais e processamento vetorial sendo particularmente útil em contextos de grande escala e alta dimensionalidade A interoperabilidade do NumPy com outras bibliotecas de ciência de dados é um dos fatores que reforçam sua centralidade no ecossistema Python Ele constitui a base numérica para ferramentas como Pandas manipulação de dados tabulares Matplotlib e Seaborn visualização de dados Scikitlearn aprendizado de máquina além de frameworks de deep learning como TensorFlow Keras e PyTorch Essa interconectividade permite que pipelines analíticos e modelos estatísticos usufruam da robustez matemática do NumPy como infraestrutura de baixo nível O NumPy também tem aplicações significativas em domínios como Engenharia e Física Computacional para simulações de sistemas dinâmicos e análise de séries temporais Economia quantitativa e finanças com suporte a operações vetoriais e estatísticas robustas Imagens e sinais digitais com operações matriciais e filtros convolucionais Inteligência artificial e machine learning onde sua performance é fundamental para o treinamento eficiente de modelos em larga escala 54 Capítulo 2 Revisão da Literatura Em suma o NumPy constitui um componente estrutural essencial para a ciência de dados moderna promovendo uma base sólida para a manipulação matemática e estatística de dados em larga escala Sua eficiência combinada com sua flexibilidade e integração com outras ferramentas justifica sua adoção massiva nos mais diversos campos do saber e sua posição de destaque nas fases iniciais do processo de KDD especialmente na exploração e preparação quantitativa dos dados Assim para qualquer iniciativa séria de análise de dados com Python o domínio do NumPy é não apenas recomendável mas absolutamente indispensável 21153ScikitLearn A biblioteca Scikitlearn é uma das principais ferramentas disponíveis no ecossistema Python para a implementação de técnicas de aprendizado de máquina machine learning Desenvolvida originalmente por Pedregosa et al 2011 ela oferece uma interface unificada e de fácil utilização para uma ampla gama de algoritmos de aprendizado supervisionado e não supervisionado além de ferramentas complementares para avaliação validação e otimização de modelos preditivos Sua popularidade se deve não apenas à robustez de seus algoritmos mas também à facilidade de integração com bibliotecas como NumPy SciPy Pandas e Matplotlib permitindo fluxos de trabalho consistentes reprodutíveis e escaláveis em ciência de dados Um dos principais diferenciais do Scikitlearn é sua modularidade e integração harmoniosa com bibliotecas fundamentais para o processamento numérico e manipulação de dados Essa arquitetura modular permite a construção de pipelines robustos que englobam desde o préprocessamento até a avaliação e refinamento de modelos preditivos Isso torna possível testar e comparar diferentes abordagens de forma sistemática e organizada característica essencial em ambientes acadêmicos e corporativos que demandam experimentação rigorosa As principais funcionalidades da biblioteca incluem Implementação de algoritmos de aprendizado supervisionado como regressão linear regressão logística máquinas de vetor de suporte SVM árvores de decisão florestas aleatórias random forest e redes neurais 55 Capítulo 2 Revisão da Literatura artificiais simples Esses algoritmos são aplicáveis a tarefas de classificação por exemplo prever a categoria de um cliente e regressão como prever o valor de uma venda ou temperatura A versatilidade dos modelos permite sua utilização em diversos domínios como finanças marketing saúde e educação Modelos de aprendizado não supervisionado como kmeans DBSCAN aglomeração hierárquica e análise de componentes principais PCA amplamente utilizados em tarefas de clusterização segmentação de grupos sem rótulos e redução de dimensionalidade compressão de variáveis para visualização ou eliminação de ruído Essas técnicas são úteis quando não se possui variáveisalvo e desejase explorar padrões ocultos nos dados Ferramentas de préprocessamento de dados incluindo normalização padronização codificação de variáveis categóricas OneHot Encoding imputação de valores ausentes binarização e seleção de atributos feature selection Essas etapas são essenciais para garantir que os dados estejam em formato adequado para a modelagem minimizando problemas causados por escalas diferentes dados faltantes ou redundância de variáveis Técnicas de validação cruzada crossvalidation e métodos de avaliação de desempenho como matrizes de confusão curvas ROC métricas de precisão recall F1score e acurácia Essas ferramentas permitem medir o desempenho dos modelos de forma confiável evitando problemas como overfitting quando o modelo aprende ruídos em vez de padrões e underfitting quando o modelo é incapaz de capturar as tendências dos dados Construção de pipelines automatizados recurso essencial para encadear etapas do fluxo de trabalho de aprendizado de máquina Com isso é possível padronizar a aplicação de transformações seleção de atributos e ajuste de 56 Capítulo 2 Revisão da Literatura modelos em um único objeto facilitando testes reuso de código e reprodutibilidade dos experimentos O Scikitlearn também oferece suporte a técnicas como ajuste de hiperparâmetros por grid search e random search além de implementações para métricas customizadas modelos probabilísticos e técnicas de balanceamento de classes como SMOTE Synthetic Minority Oversampling Technique Sua versatilidade permite atender desde projetos introdutórios até aplicações mais avançadas em modelagem preditiva Com ampla documentação uma comunidade ativa de desenvolvedores e usuários tutoriais atualizados e compatibilidade com ferramentas de visualização como Matplotlib e Seaborn o Scikitlearn é hoje considerado um dos frameworks mais acessíveis e poderosos para o desenvolvimento de soluções em ciência de dados Sua arquitetura modular associada à simplicidade de uso o consolidou como uma das bibliotecas mais utilizadas em pesquisas acadêmicas projetos educacionais ambientes corporativos e prototipagem rápida de modelos de aprendizado de máquina 21154 Matplotlib A biblioteca Matplotlib desenvolvida por John D Hunter em 2007 representa uma das ferramentas mais consolidadas para visualização de dados em Python sendo amplamente empregada na comunidade científica em ambientes acadêmicos e no setor corporativo Sua criação teve como objetivo suprir a necessidade por uma biblioteca gráfica poderosa flexível e orientada à publicação científica de alta qualidade similar ao que o MATLAB oferecia mas em um ecossistema de código aberto Ao longo dos anos a Matplotlib tornouse a base para bibliotecas de visualização mais especializadas e de alto nível como Seaborn Plotly Pandas Visualization e ggplot versão inspirada no ggplot2 do R consolidandose como um framework de visualização fundamental no contexto da ciência de dados com Python A biblioteca se destaca por permitir a criação de visualizações que vão desde gráficos simples e rápidos úteis na análise exploratória inicial até composições 57 Capítulo 2 Revisão da Literatura gráficas complexas e altamente personalizadas adequadas para publicações científicas apresentações executivas ou dashboards interativos Sua compatibilidade com ambientes interativos como Jupyter Notebook Google Colab Visual Studio Code e PyCharm proporciona uma experiência analítica fluida e iterativa integrandose perfeitamente aos fluxos de trabalho de análise e descoberta de conhecimento em bases de dados KDD Knowledge Discovery in Databases Enttre as principais Funcionalidades da Matplotlib estão Diversidade de tipos de gráficos A Matplotlib suporta a criação de uma ampla gama de visualizações incluindo Gráficos de linha barras verticais e horizontais setores pie charts dispersão scatter plots histogramas gráficos de densidade gráficos de área gráficos de velas candlestick mapas de calor heatmaps gráficos tridimensionais 3D com mpltoolkitsmplot3d entre outros Essa variedade torna a biblioteca aplicável desde o ensino de estatística básica até o suporte a estudos avançados em inteligência artificial e modelagem preditiva Customização total de elementos visuais Todos os componentes de um gráfico cores estilos de linha marcadores espessura de traço rótulos de eixo títulos legendas escalas grades fontes orientação de textos margens e posicionamento podem ser modificados com precisão Essa flexibilidade permite a adequação estética e semântica das visualizações ao públicoalvo e ao propósito analítico Integração nativa com o ecossistema científico do Python A Matplotlib é totalmente compatível com estruturas de dados oriundas do NumPy arrays e Pandas DataFrames o que facilita a criação de gráficos diretamente a partir de conjuntos de dados organizados sem a necessidade de conversões intermediárias Ela também se integra com ferramentas de aprendizado de máquina como Scikitlearn permitindo a visualização de métricas de desempenho e curvas de validação em pipelines de modelagem Exportação em formatos de alta resolução Os gráficos gerados podem ser exportados em múltiplos formatos vetoriais e rasterizados como PNG 58 Capítulo 2 Revisão da Literatura SVG EPS PDF e TIFF com controle detalhado de dpi dots per inch garantindo a qualidade necessária para publicação em periódicos apresentações formais ou relatórios técnicos Composição de subplots e layouts avançados Através de funções como subplot subplots e do módulo gridspec é possível organizar múltiplas visualizações em estruturas de grade viabilizando a comparação simultânea de diferentes aspectos de um mesmo conjunto de dados Isso é especialmente útil em relatórios de análise multivariada benchmarking e apresentação de séries temporais complexas Recursos de interatividade A Matplotlib oferece suporte a interações básicas por meio do modo interativo matplotlib inline ou matplotlib notebook incluindo zoom pan rotação em gráficos 3D atualização de dados em tempo real e integração com interfaces gráficas GUIs como Tkinter PyQt wxPython e GTK Esses recursos são particularmente úteis para a construção de prototipagens rápidas ferramentas educacionais ou visualizações reativas em ambientes de simulação A utilização da Matplotlib é estratégica nas fases exploratórias e de comunicação visual dos resultados em projetos de ciência de dados Durante o processo de KDD ela possibilita a detecção de padrões visuais tendências temporais anomalias e relações entre variáveis servindo como suporte tanto para a formulação de hipóteses quanto para a validação de modelos Sua expressividade visual a torna também essencial em storytelling com dados contribuindo para a transparência e interpretabilidade em contextos onde a comunicação de achados analíticos é tão importante quanto a modelagem em si Sua ampla base de usuários documentação rica vasta produção de tutoriais e notebooks públicos como no Kaggle GitHub ou Google Colab reforçam seu papel como ferramenta padrão para visualização gráfica em Python Essa aceitação comunitária e institucional confere à Matplotlib longevidade confiabilidade e relevância prática em projetos acadêmicos científicos e corporativos que envolvem análise quantitativa modelagem estatística e inteligência artificial 59 Capítulo 2 Revisão da Literatura 21155 Seaborn A biblioteca Seaborn é uma ferramenta de alto nível para visualização estatística de dados em Python construída sobre a base funcional do Matplotlib e integrada nativamente ao Pandas Desenvolvida por Michael Waskom e colaboradores WASKOM et al 2020 seu principal objetivo é fornecer uma interface simples elegante e estatisticamente informada para a geração de gráficos facilitando o processo de análise exploratória de dados EDA Ao abstrair grande parte da complexidade do Matplotlib Seaborn promove a criação de visualizações ricas com mínimo esforço de codificação especialmente voltadas à investigação de relações e padrões entre variáveis Projetada para operar de forma fluida com DataFrames a biblioteca reduz a necessidade de manipulação explícita de dados antes da visualização Os usuários podem referenciar diretamente os nomes das colunas como argumentos das funções de visualização o que acelera a prototipagem gráfica em fluxos analíticos tabulares Essa característica torna o Seaborn particularmente eficaz em contextos que envolvem grandes volumes de dados organizados em colunas como em análises econômicas comportamentais biomédicas e sociais Principais Recursos e Funcionalidades do Seaborn Variedade de gráficos estatísticos de alto nível O Seaborn oferece suporte à criação de múltiplos tipos de gráficos com apelo estatístico incluindo Distribuições univariadas e bivariadas histplot kdeplot boxplot violinplot displot Relações entre variáveis scatterplot lineplot regplot com suporte à regressão linear simples Comparações categóricas barplot pointplot countplot stripplot e swarmplot que facilitam a análise de agrupamentos e segmentações por variáveis qualitativas 60 Capítulo 2 Revisão da Literatura Trabalho direto com DataFrames Pandas A biblioteca foi projetada para reconhecer e operar com colunas nomeadas como eixos e atributos estéticos Isso elimina a necessidade de transformação manual de dados permitindo um desenvolvimento ágil e eficiente de visualizações em ambientes interativos Estilos e temas visuais integrados Seaborn disponibiliza uma série de temas visuais predefinidos darkgrid whitegrid dark white ticks que proporcionam uma aparência estética limpa e coerente com ênfase na legibilidade e clareza gráfica Essa padronização visual é especialmente útil em relatórios técnicos e apresentações científicas Simplificação na criação de visualizações complexas Em comparação ao Matplotlib a sintaxe do Seaborn é mais declarativa e reduz a necessidade de comandos de baixo nível A criação de gráficos informativos com recursos estatísticos embutidos como intervalos de confiança ajustes de curva subgrupos de comparação com hue col row pode ser realizada em poucas linhas de código Gráficos específicos para variáveis categóricas A biblioteca oferece suporte robusto à análise visual de dados categóricos por meio de gráficos que mostram distribuições condicionais comparações por grupo e efeitos de interações entre variáveis qualitativas e quantitativas Isso permite explorar com profundidade fenômenos estratificados por categorias Mapas de calor e correlações A função heatmap possibilita a criação de mapas de calor diretamente a partir de matrizes de correlação ou tabelas cruzadas utilizando gradientes de cor para representar a intensidade dos relacionamentos entre variáveis Esse tipo de gráfico é particularmente útil em análises multivariadas e identificação de colinearidades Incorporação de elementos estatísticos Seaborn não se limita à estética visual mas integra elementos analíticos como curvas de regressão sombreamento de incertezas estimativas de densidade kernel KDE e mecanismos de suavização promovendo insights visuais ancorados em princípios estatísticos 61 Capítulo 2 Revisão da Literatura O Seaborn ocupa um papel central na fase de análise exploratória de dados do processo de KDD Knowledge Discovery in Databases oferecendo uma abordagem orientada à descoberta visual de padrões outliers tendências e relações de dependência Sua combinação de expressividade visual simplicidade sintática e rigor estatístico o torna particularmente adequado tanto para cientistas de dados iniciantes quanto para profissionais experientes em busca de rapidez na iteração gráfica A biblioteca também é amplamente utilizada em conjunto com ferramentas como Jupyter Notebook Google Colab Pandas e NumPy compondo um ambiente analítico completo interativo e reprodutível Por meio da integração com o Matplotlib é possível realizar ajustes finos em visualizações criadas com Seaborn mantendo a compatibilidade com fluxos gráficos avançados Em síntese o Seaborn representa uma evolução em relação ao Matplotlib no que se refere à eficiência e clareza na comunicação visual de dados consolidando se como uma das principais bibliotecas para análises exploratórias orientadas por estatística visual com aplicações amplas em pesquisa acadêmica estudos de mercado análise de desempenho e ciência aplicada 21156 MISSINGNO A biblioteca Missingno constitui uma ferramenta especializada de visualização para análise de valores ausentes missing data em conjuntos de dados tabulares no ecossistema Python Projetada com foco na exploração gráfica de lacunas em dados estruturados a biblioteca desempenha um papel crucial na etapa de pré processamento e diagnóstico de qualidade dos dados no processo de Knowledge Discovery in Databases KDD Conforme discutido por Waskom et al 2020 sua aplicação é particularmente eficaz na identificação de padrões estruturais e correlações entre ausências oferecendo suporte visual às decisões sobre imputação exclusão ou tratamento condicional de dados incompletos Diferentemente de abordagens puramente numéricas ou estatísticas Missingno permite representar graficamente a presença e ausência de dados em um 62 Capítulo 2 Revisão da Literatura DataFrame evidenciando tendências agrupamentos e relações entre colunas e registros afetados por ausência de informações Esse tipo de visualização favorece a compreensão contextual das lacunas nos dados essencial para preservar a robustez dos modelos analíticos e preditivos construídos sobre tais bases Funcionalidades Principais do Missingno Integração direta com Pandas A biblioteca foi projetada para operar nativamente com estruturas do tipo DataFrame possibilitando a aplicação imediata em fluxos de análise já fundamentados nas bibliotecas Pandas e NumPy A simplicidade de sua sintaxe permite a geração de gráficos com mínimo esforço de codificação o que a torna acessível tanto para usuários iniciantes quanto para analistas experientes Visualizações especializadas para dados faltantes Missingno disponibiliza um conjunto conciso porém poderoso de representações gráficas dedicadas à inspeção de dados ausentes msnomatrix Exibe a estrutura de presença e ausência de dados por meio de barras verticais para cada observação destacando padrões longitudinais de completude ou ausência em registros msnobar Mostra a contagem absoluta e relativa de valores não nulos por coluna oferecendo uma visão quantitativa e intuitiva do grau de completude do dataset msnoheatmap Apresenta uma matriz de correlação entre colunas com base na ausência simultânea de dados auxiliando na identificação de variáveis com lacunas correlacionadas o que é útil em estratégias de imputação condicional ou análise de dependência entre ausências msnodendrogram Gera uma árvore hierárquica dendrograma agrupando colunas com padrões similares de ausência facilitando a identificação de clusters de variáveis estruturalmente relacionadas por incompletude 63 Capítulo 2 Revisão da Literatura Interface de fácil interpretação e rápida aplicação Um dos principais diferenciais do Missingno está em sua capacidade de gerar diagnósticos visuais altamente informativos com poucas linhas de código mantendo a clareza e a interpretabilidade das visualizações Essa característica é especialmente valiosa em ambientes de análise exploratória rápida como Jupyter Notebooks e em auditorias iniciais de bases de dados heterogêneas Relevância no Processo de Preparação de Dados No contexto do préprocessamento e da engenharia de atributos Missingno representa uma ferramenta estratégica para o aprimoramento da qualidade e confiabilidade dos dados analisados A visualização de lacunas ajuda a evitar abordagens genéricas ou inadequadas de tratamento de valores ausentes favorecendo decisões informadas como Aplicação de técnicas de imputação seletiva baseada em padrões de ausência Remoção de colunas ou registros com altos níveis de incompletude estrutural Detecção de blocos temporais ou variáveis correlacionadas afetadas por falhas sistemáticas de coleta Além disso o domínio dessa ferramenta amplia a capacidade crítica e técnica dos profissionais de ciência de dados contribuindo para a construção de pipelines analíticos mais transparentes e robustos Segundo VanderPlas 2016 o uso competente de bibliotecas como Missingno aliadas a Pandas NumPy e Scikitlearn representa um diferencial relevante na produtividade analítica e na tomada de decisão baseada em evidência reprodutível 212 Transformação De Dados A transformação de dados compreende um conjunto de processos essenciais destinados a converter dados brutos em formatos adequados às exigências das etapas subsequentes de análise e modelagem Entre as técnicas mais utilizadas destacamse a normalização a padronização a discretização a codificação de 64 Capítulo 2 Revisão da Literatura variáveis categóricas e a transformação logarítmica dentre outras Essas metodologias são cruciais para garantir a compatibilidade dos dados com os algoritmos de mineração e aprendizado de máquina promovendo ganhos expressivos em termos de desempenho computacional robustez e acurácia dos modelos resultantes Particularmente quando atributos apresentam escalas ou unidades distintas a aplicação correta da transformação tornase imprescindível visto que muitos algoritmos baseados em medidas de distância ou gradientes são sensíveis à magnitude dos valores Assim a transformação de dados configurase como uma etapa crítica dentro do ciclo de vida da análise prevenindo vieses e facilitando a convergência e generalização dos modelos Paralelamente a análise multivariada representa um campo estatístico dedicado à observação e interpretação simultânea de múltiplas variáveis dependentes possibilitando uma compreensão mais holística e realista de fenômenos complexos caracterizados por interrelações e dependências mútuas Amplamente empregada em áreas diversas como estudos ambientais geográficos e socioeconômicos essa abordagem estatística visa não necessariamente soluções otimizadas isoladamente mas sim a construção de representações interpretáveis e coerentes dos sistemas analisados Nijkamp 1999 Métodos consagrados como a análise de componentes principais PCA a análise fatorial a análise de agrupamentos cluster analysis e a análise discriminante figuram entre as principais ferramentas para a identificação de padrões latentes redução dimensional e segmentação de conjuntos multivariados No contexto do método proposto para segmentação de clientes B2B a análise multivariada assume papel estratégico ao viabilizar a exploração estruturada e interpretável de grandes volumes de dados heterogêneos que englobam variáveis como faturamento porte empresarial tempo de relacionamento e volume de compras Essa abordagem permite identificar agrupamentos naturais clusters de clientes com perfis similares facilitando a visualização e compreensão dos segmentos emergentes Além disso a combinação entre a análise multivariada e a transformação adequada dos dados fortalece a fundamentação estatística e comercial das estratégias de segmentação sustentando decisões baseadas em evidências concretas Dessa forma contribui decisivamente para a formulação de 65 Capítulo 2 Revisão da Literatura ações personalizadas a priorização eficiente de recursos e a otimização do relacionamento com diferentes perfis dentro do portfólio de clientes 2121 Método De Clusterização A análise de agrupamentos ou cluster analysis referese a um conjunto de técnicas estatísticas que têm como objetivo principal agrupar objetos ou observações com base em suas semelhanças e diferenças buscando identificar estruturas naturais nos dados A ideia central é formar grupos chamados de clusters de forma que os elementos pertencentes a um mesmo grupo apresentem alta similaridade entre si enquanto os grupos diferentes sejam idealmente o mais distintos possível uns dos outros Essa similaridade geralmente é medida por meio de distâncias matemáticas como a distância euclidiana ou a de Manhattan aplicadas sobre as variáveis disponíveis MALHOTRA 2006 Diferentemente de métodos supervisionados a análise de agrupamentos não pressupõe uma variávelalvo ou categorias prédefinidas Ela é uma técnica descritiva utilizada quando não se conhece a priori a estrutura do conjunto de dados permitindo descobrir padrões latentes e segmentos relevantes sem interferência de suposições Por isso não se faz distinção entre variáveis independentes e dependentes todas são consideradas na definição das semelhanças Como aponta Hair et al 2009 essa característica torna o método especialmente valioso em pesquisas exploratórias onde o objetivo é revelar agrupamentos naturais de indivíduos objetos ou empresas a partir de um grande volume de dados multivariados Esse tipo de análise se mostra extremamente útil em contextos onde o número de observações é elevado tornando impraticável a análise individual de cada elemento A partir da formação dos clusters é possível reduzir a complexidade dos dados facilitando tanto a visualização quanto a interpretação de tendências e comportamentos semelhantes entre os elementos agrupados Dessa forma a análise de agrupamentos é frequentemente empregada em áreas como marketing biologia psicologia geografia e ciência de dados por exemplo na segmentação 66 Capítulo 2 Revisão da Literatura de clientes classificação de espécies agrupamento de regiões geográficas ou na redução de dimensionalidade para aprendizado de máquina Na análise de agrupamentos não há conhecimento prévio sobre o número tamanho ou características dos grupos a serem formados Os algoritmos assumem que os dados falarão por si e os clusters são obtidos com base em medidas matemáticas de proximidade sem qualquer rótulo externo Por isso tratase de uma técnica não supervisionada voltada à descoberta de padrões ocultos nos dados HAIR et al 2009 O processo de clusterização pode ser dividido em duas etapas fundamentais 1 a estimação das medidas de similaridade ou dissimilaridade entre os objetos e 2 a aplicação de um algoritmo de agrupamento que utilizará essas medidas para formar os grupos Existem diversas técnicas para conduzir essa análise e a escolha da abordagem mais adequada depende do tipo de dados do objetivo do estudo e da quantidade de informações disponíveis Segundo Hair et al 2009 as técnicas de agrupamento podem ser classificadas em dois grandes grupos a Abordagem Hierárquica caracterizase pela construção de uma estrutura em forma de árvore dendrograma a partir de fusão sucessiva aglomeração ou divisão recursiva divisiva dos elementos Inicialmente cada observação é tratada como um grupo separado e os grupos são combinados com base em critérios de proximidade formando novos grupos em níveis hierárquicos até que todos estejam reunidos O dendrograma resultante mostra visualmente as distâncias entre os agrupamentos formados permitindo ao analista decidir a posteriori o número mais adequado de clusters com base em saltos significativos nas distâncias b Abordagem Não Hierárquica ao contrário da hierárquica essa abordagem exige que o número de clusters seja definido previamente pelo pesquisador O algoritmo mais conhecido desta categoria é o kmeans que busca particionar os dados em k grupos distintos minimizando a variância intracluster e maximizando a variância entre os clusters A técnica é eficiente e amplamente utilizada sobretudo em contextos com grandes volumes de dados onde o custo computacional da abordagem hierárquica se torna inviável 67 Capítulo 2 Revisão da Literatura Ambas as abordagens possuem vantagens e limitações e muitas vezes são utilizadas de forma complementar Por exemplo a análise hierárquica pode ser empregada inicialmente para estimar um número apropriado de clusters que então é refinado por meio do kmeans ou de outro método não hierárquico A escolha criteriosa da abordagem e da métrica de similaridade é fundamental para garantir agrupamentos coerentes e interpretáveis especialmente em aplicações como a segmentação de clientes B2B onde decisões estratégicas serão tomadas com base nos perfis identificados 21211 ELBOW O método do cotovelo Elbow Method é uma técnica visual amplamente utilizada na análise de agrupamentos clustering para a determinação do número ideal de clusters especialmente no contexto do algoritmo kmeans O principal objetivo desse método é identificar um ponto ótimo na curva que representa a relação entre o número de clusters e a qualidade da segmentação evitando problemas comuns como o subajuste underfitting onde poucos clusters não capturam adequadamente a heterogeneidade dos dados e o superajuste overfitting que ocorre quando clusters excessivos fragmentam desnecessariamente os grupos prejudicando a interpretabilidade e a generalização do modelo O método baseiase na análise da Soma dos Erros Quadrados Sum of Squared Errors SSE também chamada de inércia total que mensura a soma das distâncias quadráticas entre os pontos e os centróides de seus respectivos clusters À medida que o número de clusters kkk aumenta a SSE diminui de forma monotônica pois os dados são particionados em grupos menores e mais homogêneos o que reduz a distância média dos pontos ao centróide de cada cluster Inicialmente essa redução é acentuada já que a divisão dos dados em poucos clusters gera grandes agrupamentos heterogêneos portanto a criação de novos clusters melhora significativamente a coesão interna Entretanto após certo valor crítico de kkk a redução da SSE tornase menos significativa pois os clusters já são suficientemente detalhados para representar as 68 Capítulo 2 Revisão da Literatura estruturas subjacentes dos dados Neste estágio o acréscimo de novos clusters produz ganhos marginais mínimos na homogeneidade ao custo de aumentar a complexidade do modelo O gráfico do número de clusters versus SSE assim forma uma curva com um formato característico semelhante a um cotovelo cujo ponto de inflexão é interpretado como o número ideal de clusters a ser utilizado Figura 3 Exemplificação Gráfica Elbow Fonte Adaptado pelo autor 2025 Na Figura 3 observase a curva da SSE em função do número de clusters Inicialmente a SSE apresenta uma queda expressiva ao aumentar de 2 para 3 clusters refletindo a melhora substancial na coesão dos grupos Conforme mais clusters são adicionados a SSE continua a decrescer porém em ritmo desacelerado A partir de k4k 4k4 notase uma diminuição marginal no ritmo de queda da SSE configurando visualmente o cotovelo da curva o ponto onde os ganhos em coesão são insuficientes para justificar a maior complexidade do modelo A identificação desse ponto é fundamental para o equilíbrio entre simplicidade e eficácia Optar por um número de clusters inferior pode resultar em grupos demasiadamente heterogêneos comprometendo a representatividade dos perfis Por outro lado um número excessivo de clusters pode gerar uma segmentação superfragmentada dificultando a interpretação dos resultados e a aplicação prática das conclusões 69 Capítulo 2 Revisão da Literatura Assim com base na análise gráfica apresentada a escolha de k4k 4k4 revelase adequada para o conjunto de dados em questão assegurando uma segmentação representativa das estruturas latentes subjacentes e alinhada aos objetivos analíticos do estudo Esse número promove uma divisão equilibrada que capta a diversidade dos dados sem sacrificar a interpretabilidade e a robustez do modelo Além do aspecto visual recomendase complementar a decisão do número ideal de clusters com outras métricas quantitativas como o coeficiente de silhueta que avalia a separação entre os grupos ou métodos estatísticos baseados em validação cruzada e estabilidade dos clusters Essa abordagem integrada fortalece a confiabilidade da segmentação e permite escolhas mais informadas e justificadas no processo analítico 21212 SILHOUETTE Para complementar a análise do número ideal de clusters a Pontuação de Silhueta é utilizada como uma métrica que avalia a qualidade dos agrupamentos a partir da coesão interna e da separação entre os grupos Diferentemente do Método do Cotovelo que foca na redução do erro interno a Silhueta oferece uma visão sobre o quão bem definidos e distintos estão os clusters formados auxiliando na validação da segmentação obtida Figura 04 Gráfico da Pontuação de Silhueta em função do número de clusters 70 Capítulo 2 Revisão da Literatura Fonte Adaptado pelo autor 2025 Na Figura 04 apresentase o gráfico da Pontuação de Silhueta em função do número de clusters que é uma das métricas mais importantes para avaliar a qualidade dos agrupamentos obtidos por técnicas de clusterização A pontuação de Silhueta mede a consistência interna dos clusters ao combinar a coesão dos elementos dentro de cada grupo e a separação entre os grupos distintos possibilitando uma avaliação quantitativa da qualidade do particionamento O gráfico evidencia que a pontuação atinge seu valor máximo superior a 085 quando o número de clusters é igual a 2 Esse resultado indica que nessa configuração os grupos apresentam forte coesão interna ou seja os elementos pertencentes ao mesmo cluster são altamente similares e uma clara separação em relação aos elementos dos demais clusters Tal cenário sugere que o particionamento em dois grupos fornece uma segmentação robusta e facilmente interpretável tornandoa altamente recomendada para aplicações práticas Ao aumentar o número de clusters para 3 ou mais observase uma queda significativa na pontuação de Silhueta que se estabiliza em valores entre 076 e 079 até aproximadamente 8 clusters Esta faixa indica uma qualidade moderada refletindo que os clusters criados possuem sobreposição ou pouca distinção clara entre eles o que pode dificultar a interpretação dos grupos e comprometer a utilidade da segmentação em contextos reais 71 Capítulo 2 Revisão da Literatura Quando o número de clusters ultrapassa esse ponto especialmente a partir de 9 ou 10 grupos a pontuação diminui de forma mais acentuada sinalizando que a qualidade da segmentação é severamente comprometida Esse comportamento sugere que a divisão adicional cria grupos artificiais ou muito fragmentados que provavelmente não representam padrões reais ou úteis dentro do conjunto de dados Ao confrontar essa análise com os resultados obtidos pelo Método do Cotovelo Figura 03 identificase uma divergência metodológica significativa Enquanto o Método do Cotovelo baseado na minimização da soma dos erros quadrados SSE indica que a escolha de 4 clusters poderia ser adequada por equilibrar homogeneidade e complexidade a métrica de Silhueta prioriza a qualidade da separação entre os grupos apontando claramente que o agrupamento com apenas 2 clusters oferece a melhor segmentação em termos estatísticos e interpretativos Essa divergência não deve ser interpretada como uma contradição mas sim como um indicativo da complexidade inerente à análise de agrupamentos especialmente quando os dados possuem estruturas intrincadas com sobreposição ou ausência de fronteiras claras entre grupos Portanto a decisão final sobre o número de clusters deve considerar múltiplas perspectivas o embasamento em diferentes métricas quantitativas o conhecimento de domínio do problema os objetivos específicos da segmentação e a viabilidade prática de implementação e interpretação dos resultados Em resumo a análise da Pontuação de Silhueta se mostra uma ferramenta valiosa para validar tanto visual quanto estatisticamente a qualidade dos agrupamentos No presente estudo essa métrica reforça a recomendação de segmentar o conjunto de dados em 2 clusters proporcionando um modelo mais coeso distinto e interpretável que pode ser aplicado com maior segurança para suportar decisões estratégicas 2122 KMEANS O método kmeans é uma técnica de análise não hierárquica amplamente utilizada em projetos de mineração de dados e ciência de dados por sua 72 Capítulo 2 Revisão da Literatura simplicidade eficiência computacional e facilidade de interpretação dos resultados Ao receber um número prédefinido de agrupamentos k o algoritmo tem como objetivo particionar os dados em k clusters distintos de forma que cada observação pertença ao grupo cujo centroide ponto central do cluster esteja mais próximo Esse processo é repetido sucessivamente até que o modelo atinja um estado estável ou seja até que as observações deixem de mudar de grupo entre as iterações HAIR 2009 HAN et al 2011 Inicialmente os centroides são definidos aleatoriamente no espaço de atributos Em seguida cada observação é associada ao cluster mais próximo com base em uma métrica de distância normalmente a distância Euclidiana Após essa etapa de alocação os centroides de cada grupo são recalculados como a média aritmética das observações pertencentes ao respectivo cluster Essa realocação dos centroides resulta então em uma nova redistribuição dos dados O processo se repete de forma iterativa a cada ciclo os dados são reagrupados em torno dos centroides atualizados e os centroides são novamente recalculados com base nas novas composições dos clusters Esse procedimento iterativo continua até que o algoritmo atinja um ponto de convergência ou seja quando a composição dos clusters deixa de variar entre as iterações consecutivas Em algumas implementações um critério de parada adicional pode ser estabelecido com base em um número máximo de iterações ou em um limiar mínimo de variação entre os centroides O objetivo central do kmeans é minimizar a variância intracluster o que significa reduzir a soma das distâncias quadradas entre os pontos e seus respectivos centroides Com isso o método busca maximizar a coesão interna de cada grupo e a separação entre os diferentes clusters resultando em agrupamentos mais homogêneos internamente e bem distintos entre si Essa característica o torna particularmente eficaz em contextos de segmentação de mercado análise comportamental e agrupamento de padrões de consumo entre outros Essa abordagem foi empregada neste trabalho como técnica principal para realizar a segmentação dos dados proporcionando uma maneira objetiva e estatisticamente fundamentada de agrupar os clientes B2B com base em suas características multivariadas 73 Capítulo 2 Revisão da Literatura A Figura 5 apresenta a visualização dos agrupamentos obtidos com o algoritmo KMeans utilizando redução de dimensionalidade por Análise de Componentes Principais PCA Figura 5 Visualização dos clusters gerados pelo KMeans com redução PCA Fonte Adaptado pelo autor 2025 2123 Análise Fatorial A análise fatorial configurase como uma das técnicas estatísticas multivariadas mais relevantes quando o objetivo é compreender a estrutura latente de um conjunto de variáveis interrelacionadas Sua aplicação tem como finalidade principal reduzir a dimensionalidade dos dados por meio da identificação de um número reduzido de fatores subjacentes não observáveis diretamente que juntos explicam a maior parte da variabilidade comum existente entre os indicadores analisados Tratase portanto de uma ferramenta que permite sintetizar informações complexas em estruturas mais manejáveis e interpretáveis facilitando tanto a visualização quanto a compreensão dos fenômenos estudados De acordo com Höppner et al 2018 a análise fatorial é amplamente empregada para revelar padrões ocultos nos dados agrupando variáveis com alto 74 Capítulo 2 Revisão da Literatura grau de correlação em torno de fatores comuns que representam dimensões latentes de um fenômeno estudado Esse agrupamento é particularmente útil em contextos nos quais se busca entender o comportamento de consumidores identificar segmentos de mercado ou estudar fenômenos sociais e organizacionais em que múltiplas variáveis podem estar relacionadas a construtos teóricos mais amplos O processo metodológico iniciase com a construção da matriz de correlação entre as variáveis observadas a partir da qual se procede à extração dos fatores Entre os métodos mais utilizados para essa extração destacase a Análise de Componentes Principais PCA conforme descrito por Thompson 2004 que permite decompor a variância total dos dados em componentes independentes Cada fator extraído é associado a um autovalor eigenvalue que representa a quantidade de variância explicada por aquele fator específico Além disso são obtidos autovetores eigenvectors que indicam as cargas fatoriais isto é o grau de correlação entre cada variável observada e os fatores latentes Ao considerar essas cargas é possível interpretar os fatores como combinações lineares das variáveis originais sendo que apenas os fatores com variância significativa geralmente com autovalor superior a 1 são mantidos para análise Assim determinase o número ideal de fatores que conseguem explicar uma parcela substancial da variância total do modelo ao mesmo tempo em que se evita a inclusão de fatores espúrios ou pouco representativos Quanto maior o número de fatores retidos maior será a capacidade explicativa da análise porém menor será a simplificação do modelo por isso é fundamental buscar um equilíbrio entre parsimônia e poder explicativo Uma ferramenta complementar que contribui para essa decisão é o Scree Plot ou gráfico de autovalores Essa representação visual permite avaliar o ponto de inflexão da curva indicando quantos fatores devem ser considerados relevantes Esse ponto geralmente associado ao critério de Kaiser que considera autovalores maiores que 1 marca a transição entre fatores significativos e fatores com contribuição marginal para a explicação da variância A seguir apresentase a Figura 6 que ilustra o Scree Plot gerado a partir da análise dos dados do presente estudo 75 Capítulo 2 Revisão da Literatura Figura 6 Scree Plot Distribuição dos Autovalores por Componente Principal Fonte Adaptado pelo autor 2025 Na Figura 6 observase que os dois primeiros componentes principais apresentam autovalores superiores a 1 indicando que explicam uma parcela significativa da variância total do modelo A partir do terceiro componente os autovalores diminuem gradativamente evidenciando uma inclinação menos acentuada na curva Esse comportamento sugere a presença de um ponto de inflexão entre o segundo e o terceiro fator o que reforça a ideia de que os dois primeiros fatores são os mais relevantes para explicar os dados A interpretação adequada desse gráfico auxilia na seleção de um modelo mais parcimonioso evitando tanto a subextração quanto a superextração de fatores A escolha final do número de componentes a serem mantidos deve considerar não apenas os critérios estatísticos como o valor dos autovalores e o percentual de variância explicada mas também o conhecimento teórico do pesquisador e a aplicabilidade prática dos fatores no contexto do estudo Dessa forma o Scree Plot constitui uma ferramenta valiosa para a validação empírica da estrutura fatorial adotada Nesse sentido a análise fatorial desempenha um papel estratégico na redução da complexidade dos dados viabilizando interpretações mais robustas e direcionadas Sua utilidade se estende a diversos campos da pesquisa acadêmica e 76 Capítulo 2 Revisão da Literatura aplicada incluindo psicometria marketing educação ciências sociais e comportamento do consumidor sendo considerada uma técnica essencial no arsenal metodológico da estatística multivariada 2124 Análise De Componentes Principais Pca A Análise de Componentes Principais PCA Principal Component Analysis é uma das técnicas estatísticas multivariadas mais consagradas para a redução da dimensionalidade de dados Sua principal finalidade consiste em transformar um conjunto possivelmente grande de variáveis interrelacionadas em um novo conjunto menor e composto por variáveis não correlacionadas os chamados componentes principais Esses componentes são combinações lineares das variáveis originais construídas de modo a reter o máximo possível da variância total dos dados no menor número de dimensões Dessa forma a PCA permite preservar a essência da informação contida nos dados originais ao mesmo tempo em que elimina redundâncias e simplifica as estruturas De acordo com Hair et al 2009 a aplicação da PCA iniciase com a padronização das variáveis quando possuem escalas diferentes seguida pela construção da matriz de covariância entre os atributos A partir dessa matriz são calculados os autovalores que indicam a quantidade de variância explicada por cada componente e os autovetores que definem as direções principais da variabilidade nos dados Os componentes principais são então ordenados com base na variância que explicam sendo o primeiro componente aquele que representa a maior variabilidade dos dados o segundo componente representa a maior variância residual ortogonal ao primeiro e assim sucessivamente A Figura 7 apresentada a seguir ilustra o Scree Plot gerado a partir da decomposição PCA do conjunto de dados analisado neste estudo Observase que os dois primeiros componentes explicam uma fração significativa da variância total o que sugere que a maior parte da informação contida nas variáveis originais pode ser representada de forma eficiente em apenas duas dimensões Este tipo de visualização é particularmente útil na definição do número ideal de componentes a serem retidos pois destaca o ponto de inflexão ou joelho onde o acréscimo de novos componentes passa a representar ganhos marginais na variância explicada 77 Capítulo 2 Revisão da Literatura Figura 7 Scree Plot dos Autovalores por Componente Principal Fonte Adaptado pelo autor 2025 A PCA é especialmente útil em cenários nos quais há um grande número de variáveis que podem dificultar análises ou visualizações diretas Ao condensar essas variáveis em poucos componentes é possível gerar gráficos de dispersão bidimensionais ou tridimensionais que revelam padrões agrupamentos ou outliers nos dados Além disso ao eliminar dimensões com variância muito baixa frequentemente associadas a ruídos a PCA melhora o desempenho de modelos computacionais como algoritmos de clusterização classificação e regras de associação favorecendo maior acurácia e menor sobreajuste A utilidade prática da PCA também é observada em estudos como o de Cumps et al 2009 que empregaram essa técnica na etapa de préprocessamento para otimizar a indução de regras com o algoritmo AntMiner O objetivo era extrair regras compreensíveis sobre o alinhamento estratégico entre negócios e Tecnologias da Informação e Comunicação TIC utilizando um extenso conjunto de dados com informações provenientes de 641 organizações Nesse contexto a PCA foi fundamental para reduzir a complexidade dos dados sem comprometer a capacidade explicativa dos modelos gerados evidenciando sua relevância como etapa preparatória na análise de dados em ambientes corporativos e acadêmicos Além de atuar como ferramenta de redução de dimensionalidade a PCA desempenha um papel crítico na identificação de multicolinearidade entre variáveis 78 Capítulo 2 Revisão da Literatura na priorização de atributos relevantes e na obtenção de insights estruturais sobre o conjunto de dados Sua aplicabilidade é transversal a diversas áreas do conhecimento como finanças biologia marketing engenharia ciência de dados e ciências sociais consolidandose como um recurso metodológico de grande valor em estudos quantitativos 213 Data Mining Para Classificação 2131 Algoritmos De Classificação Diante da crescente demanda por análise de grandes volumes de dados e da rápida evolução das tecnologias de inteligência artificial a aplicação de técnicas analíticas avançadas tornouse não apenas relevante mas indispensável para a extração de insights estratégicos e a tomada de decisões baseadas em evidências Em um cenário em que a complexidade e a variedade dos dados crescem exponencialmente métodos como árvores de decisão redes neurais artificiais e algoritmos genéticos têm se consolidado como ferramentas centrais no campo do aprendizado de máquina machine learning e da mineração de dados data mining Essas técnicas vêm revolucionando a forma como as organizações e pesquisadores tratam os dados permitindo o reconhecimento de padrões ocultos a antecipação de comportamentos futuros e a automação de processos decisórios Particularmente os algoritmos de classificação destacamse por sua capacidade de categorizar observações com base em características previamente identificadas o que é essencial em contextos que envolvem diagnóstico segmentação previsão de churn recomendação de produtos entre outros Entre essas abordagens as árvores de decisão têm como principal atrativo a sua interpretabilidade os modelos gerados por esse método são compostos por regras simples estruturadas de forma hierárquica que permitem ao analista compreender o racional por trás de cada decisão ou classificação Essa transparência é especialmente valiosa em áreas que exigem rastreabilidade e explicações claras como o setor financeiro e a área da saúde 79 Capítulo 2 Revisão da Literatura As redes neurais artificiais por sua vez inspiradas no funcionamento do cérebro humano apresentam notável capacidade de capturar relações não lineares entre variáveis sendo amplamente utilizadas em tarefas que envolvem reconhecimento de padrões complexos classificação multiclasse predição contínua e identificação de anomalias Embora exijam maior poder computacional e apresentem menor interpretabilidade em comparação com as árvores de decisão seu desempenho preditivo em grandes bases de dados é frequentemente superior especialmente quando ajustadas por meio de técnicas de regularização e otimização Os algoritmos genéticos por fim representam uma classe de métodos inspirados nos princípios da seleção natural e da evolução biológica Sua principal aplicação no contexto de mineração de dados está na otimização de modelos preditivos onde são empregados para selecionar subconjuntos ideais de variáveis ajustar hiperparâmetros e descobrir regras de classificação de alta qualidade Um exemplo notório de aplicação é a técnica AntMiner um algoritmo baseado em colônia de formigas e princípios evolutivos utilizado para a indução de regras interpretáveis e a previsão de churn de clientes combinando eficiência e inteligibilidade Neste trabalho cada uma dessas abordagens será discutida em profundidade com foco na aplicação prática e na análise comparativa dos resultados obtidos As árvores de decisão serão exploradas como ferramenta explicativa e interpretável para regras de classificação as redes neurais artificiais serão implementadas como modelo preditivo de maior complexidade e poder de generalização e os algoritmos genéticos serão utilizados como mecanismo de otimização e extração de conhecimento com destaque para sua flexibilidade em problemas de múltiplos objetivos e espaços de busca extensos Essa diversidade metodológica permitirá uma análise abrangente do problema proposto considerando tanto o desempenho quanto a explicabilidade das soluções Figura 8 Comparação entre abordagens de classificação interpretabilidade desempenho preditivo e complexidade computacional 80 Capítulo 2 Revisão da Literatura Fonte Adaptado pelo autor 2025 A Figura 8 ilustra de forma comparativa os três métodos estudados com ênfase em três critérios analíticos interpretabilidade desempenho e complexidade Notase que as árvores de decisão se destacam pela alta transparência e facilidade de explicação enquanto as redes neurais apresentam maior desempenho em predições complexas porém com menor explicabilidade Já os algoritmos genéticos ocupam uma posição intermediária oferecendo boa capacidade de otimização com interpretabilidade moderada o que os torna atrativos em contextos híbridos Essa visualização contribui para fundamentar a escolha metodológica conforme os objetivos específicos do estudo e as restrições do domínio de aplicação 2132 DECISION TREE ARVORES DE DECISÃO PARA REGRAS DE CLASSIFICAÇÃO A técnica da árvore de decisão é amplamente utilizada no aprendizado supervisionado para tarefas de classificação e regressão destacandose como uma das abordagens mais intuitivas e explicáveis dentro do campo da ciência de dados Ela opera segmentando iterativamente o espaço de atributos criando partições que visam maximizar a pureza dos subconjuntos resultantes em relação à variávelalvo Em outras palavras o algoritmo constrói uma estrutura hierárquica em formato de 81 Capítulo 2 Revisão da Literatura árvore onde cada nó interno representa uma decisão baseada em uma variável e os nósfolha indicam a predição final classe ou valor Uma das grandes vantagens das árvores de decisão é sua capacidade interpretativa pois o modelo resultante pode ser facilmente visualizado e compreendido até mesmo por especialistas não técnicos Essa característica é especialmente valiosa em domínios como o marketing a saúde e o setor financeiro onde a transparência na tomada de decisão é tão importante quanto a precisão dos modelos LAROCHELLE et al 2022 Ao empregar o algoritmo da árvore de decisão em contextos comerciais como na segmentação de clientes ou previsão de churn tornase viável estimar a probabilidade de um cliente adquirir ou abandonar um produto ou serviço com base em seu perfil sociodemográfico comportamental ou histórico de consumo A estrutura hierárquica da árvore facilita a identificação dos fatores mais relevantes para cada decisão fornecendo insights práticos e acionáveis para gestores e analistas MOLNAR 2022 Segundo Cumps et al 2009 técnicas de mineração de dados fundamentadas em árvores de decisão demonstram elevada eficiência na classificação de bases complexas e heterogêneas permitindo a inferência de regras claras e concisas diretamente a partir dos dados coletados Um exemplo recente da eficácia dessa abordagem é apresentado no estudo de Chen et al 2021 publicado no Journal of Marketing Analytics que utilizou árvores de decisão combinadas com análise fatorial para prever rotatividade de clientes em empresas de telecomunicações Os autores conseguiram identificar os principais drivers de retenção de clientes como tempo de contrato volume de reclamações e pacotes promocionais com elevada acurácia e interpretabilidade Além disso o uso de algoritmos de árvore de decisão quando combinado com métodos de explicação como os valores SHAP SHapley Additive exPlanations conforme proposto por Lundberg et al 2020 pode aprimorar significativamente a capacidade de interpretação dos modelos elucidando o impacto individual de cada variável em cada predição Esse nível de explicabilidade é altamente valorizado em aplicações empresariais sobretudo em contextos regulados como o setor bancário Como ressalta Domingos 2015 embora árvores 82 Capítulo 2 Revisão da Literatura de decisão não sejam uma solução universal para todos os problemas sua robustez simplicidade e eficiência computacional as tornam ferramentas de primeira escolha em muitas aplicações do mundo real Figura 9 Exemplo esquemático de uma árvore de decisão simulando a classificação de clientes com base em perfil e comportamento Fonte Adaptado pelo autor 2025 2133 RF Random Forest A técnica Random Forest ou Floresta Aleatória é uma das abordagens mais robustas e eficazes do aprendizado de máquina supervisionado enquadrandose no paradigma de ensemble learning que consiste na combinação de múltiplos modelos preditivos com o objetivo de melhorar o desempenho geral da previsão Proposta por Leo Breiman em 2001 essa metodologia introduz uma estratégia engenhosa de agregação de diversas árvores de decisão modelos naturalmente instáveis e propensos ao sobreajuste a partir de uma dupla aleatorização tanto nas amostras de dados utilizadas para treinar cada árvore quanto nas variáveis consideradas na divisão dos nós durante o crescimento da árvore Esse processo de construção utiliza a técnica de bootstrap aggregating ou bagging onde cada árvore é treinada sobre uma amostra aleatória com reposição dos dados originais Paralelamente em cada divisão interna da árvore apenas um 83 Capítulo 2 Revisão da Literatura subconjunto aleatório de variáveis é considerado o que promove diversidade entre as árvores e evita que todas aprendam os mesmos padrões Como resultado o modelo agregado é capaz de capturar uma gama muito mais ampla de estruturas e padrões nos dados A combinação das previsões individuais das árvores realizada por votação majoritária no caso de classificação ou média aritmética em regressão reduz significativamente a variância do modelo sem aumentar o viés proporcionando maior estabilidade e generalização Essa característica torna o Random Forest extremamente apropriado para lidar com problemas complexos especialmente em contextos onde os dados possuem alta dimensionalidade ruído colinearidade entre variáveis ou relações não lineares difíceis de modelar com métodos tradicionais Sua aplicabilidade abrange uma grande diversidade de domínios desde bioinformática onde é utilizado na análise de expressão gênica até finanças marketing diagnósticos médicos e análise preditiva de comportamento do consumidor No campo da saúde por exemplo a Random Forest tem sido aplicada com sucesso para prever doenças crônicas como diabetes hipertensão ou doenças cardíacas utilizando bases de dados compostas por variáveis clínicas como idade IMC níveis de colesterol histórico familiar e hábitos de vida A capacidade do modelo de detectar interações complexas entre atributos e a sua robustez diante de outliers e dados desbalanceados são diferenciais decisivos nesse tipo de aplicação onde decisões baseadas em dados podem impactar diretamente na qualidade do tratamento e na alocação de recursos hospitalares Outro ponto positivo relevante da Random Forest é sua capacidade de estimar a importância relativa das variáveis feature importance Essa funcionalidade oferece uma visão hierárquica dos atributos mais relevantes para as decisões do modelo contribuindo para a interpretabilidade dos resultados e facilitando a comunicação com públicos não técnicos Embora seja frequentemente caracterizado como uma técnica de caixa preta devido à complexidade da estrutura interna gerada pela floresta de árvores a análise de importância das variáveis e os métodos complementares como SHAP SHapley Additive exPlanations têm contribuído para a democratização do entendimento e da confiança em suas decisões mesmo em contextos sensíveis 84 Capítulo 2 Revisão da Literatura Do ponto de vista computacional a Random Forest apresenta boa escalabilidade e paralelismo sendo possível treinar múltiplas árvores de forma independente Isso permite sua aplicação em bases de dados extensas e em problemas de grande escala com eficiência e tempo de resposta aceitáveis Diante desse conjunto de atributos precisão preditiva robustez a ruído e variáveis irrelevantes flexibilidade e interpretação parcial a técnica Random Forest configurase como uma das ferramentas mais completas do repertório de ciência de dados contemporânea Sua inclusão neste trabalho visa não apenas oferecer uma comparação metodológica com técnicas como árvores de decisão isoladas e redes neurais mas também evidenciar sua eficácia na modelagem de fenômenos multivariados especialmente em contextos empresariais voltados à previsão e segmentação de clientes 2134 RNA Redes Neurais Artificiais As Redes Neurais Artificiais RNAs constituem uma classe de algoritmos de aprendizado de máquina inspirados no funcionamento do cérebro humano especialmente na forma como os neurônios biológicos transmitem sinais Em sua essência as RNAs são compostas por unidades computacionais interconectadas os chamados neurônios artificiais organizadas em camadas uma camada de entrada uma ou mais camadas ocultas e uma camada de saída Cada conexão entre os neurônios possui um peso ajustável que é modificado durante o processo de treinamento para minimizar o erro entre a saída prevista e o valor real O funcionamento básico das RNAs envolve a propagação da informação da entrada para a saída e em seguida a aplicação do algoritmo de retropropagação do erro backpropagation responsável por recalibrar os pesos sinápticos com base no gradiente do erro Esse mecanismo iterativo permite que a rede aprenda padrões complexos e realize tarefas como classificação regressão previsão e até mesmo geração de dados Conforme destacado por Rumelhart et al 1986 as redes neurais têm a capacidade de se adaptar a partir de exemplos aprendendo relações não explícitas nos dados por meio de treinamento supervisionado 85 Capítulo 2 Revisão da Literatura Essa capacidade de capturar relações não lineares e interações entre variáveis torna as RNAs particularmente adequadas para contextos de alta complexidade onde modelos estatísticos tradicionais apresentam limitações Um exemplo emblemático dessa superioridade é apresentado por Pollak 2021 que demonstrou o desempenho superior das redes neurais na previsão do valor do tempo de vida do cliente Customer Lifetime Value CLV especialmente em bases com forte heterogeneidade de comportamento Ao aprender representações latentes dos padrões históricos de consumo as RNAs conseguiram prever o CLV com maior precisão e menor erro absoluto médio quando comparadas a modelos baseados em regressão ou árvores de decisão Outro estudo marcante é o de Su et al 2023 publicado no Journal of Marketing Analytics que utilizou redes neurais combinadas com transformações wavelet e mecanismos de atenção para prever o CLV em ambientes de publicidade online As wavelets permitiram decompor os dados de séries temporais em componentes de diferentes frequências o que possibilitou capturar variações comportamentais em diferentes escalas de tempo Já os grafos de atenção atuaram no reconhecimento de padrões voláteis e esparsos aprendendo representações eficazes dos usuários e melhorando significativamente a robustez das previsões Tal abordagem destaca a flexibilidade das RNAs em lidar com dados temporais não estacionários e fragmentados características comuns em plataformas digitais Apesar de seu potencial expressivo as redes neurais frequentemente enfrentam críticas em relação à sua baixa interpretabilidade De fato por serem compostas por múltiplas camadas de transformações matemáticas complexas elas funcionam como verdadeiras caixaspretas dificultando a compreensão direta de como a decisão foi tomada Essa limitação motivou o desenvolvimento do campo da XAI Explainable Artificial Intelligence que visa tornar os modelos de IA mais transparentes e compreensíveis para seres humanos Estudos como os de Adadi e Berrada 2018 e Arrieta et al 2020 apontam diversas técnicas para explicabilidade como LIME SHAP e visualizações de ativação de camadas internas que auxiliam analistas a identificar as características mais influentes em cada predição Além disso pesquisas como a de Xie et al 2019 validam a aplicação das RNAs em contextos práticos como a previsão de churn abandono de clientes 86 Capítulo 2 Revisão da Literatura utilizando dados transacionais e demográficos de clientes em tempo real Os resultados mostraram que as RNAs não apenas atingem altos níveis de acurácia mas também são capazes de identificar clientes em risco antes de eventos críticos permitindo ações proativas por parte das empresas Em síntese as Redes Neurais Artificiais constituem uma poderosa ferramenta de modelagem preditiva destacandose pela sua capacidade de generalizar padrões em grandes volumes de dados mesmo quando as relações entre variáveis são complexas não lineares ou desconhecidas No entanto essa sofisticação exige maior esforço computacional e soluções específicas para interpretação sobretudo quando a transparência é crucial para decisões sensíveis ou reguladas Ainda assim com o avanço das técnicas de interpretabilidade as RNAs continuam sendo protagonistas em aplicações de ciência de dados inteligência artificial e análise de comportamento do consumidor MOLNAR 2022 2135 AG Algoritmos Genéticos Os Algoritmos Genéticos AGs representam uma das abordagens mais inovadoras dentro do campo da inteligência artificial e da ciência de dados especialmente no que se refere à resolução de problemas de otimização e busca em espaços complexos de soluções Inspirados nos mecanismos naturais de evolução biológica como a seleção natural o cruzamento genético e a mutação os AGs simulam de forma computacional o processo de sobrevivência dos mais aptos para encontrar iterativamente soluções de alto desempenho Esses algoritmos operam a partir de uma população inicial de soluções aleatórias codificadas geralmente em estruturas semelhantes a cadeias de DNA cromossomos A cada geração os indivíduos mais adaptados isto é as soluções com melhor desempenho segundo uma função de avaliação fitness são selecionados para reprodução gerando novas soluções por meio de operadores de cruzamento e mutação Ao longo de múltiplas iterações o algoritmo converge para soluções cada vez mais adequadas ao problema proposto mesmo em ambientes de alta complexidade e múltiplas variáveis 87 Capítulo 2 Revisão da Literatura No contexto de mineração de dados e aprendizado de máquina os algoritmos genéticos têm se mostrado ferramentas extremamente valiosas para a modelagem preditiva e a otimização de modelos Sua flexibilidade permite que sejam aplicados tanto na seleção de atributos relevantes quanto na definição de parâmetros ideais para outros algoritmos preditivos Um exemplo notável é apresentado por Verbeke et al 2011 que exploram a aplicação da técnica AntMiner um algoritmo baseado em colônia de formigas Ant Colony Optimization ACO que incorpora conceitos dos AGs para desenvolver classificadores baseados em regras A grande vantagem dessa abordagem está na sua capacidade de gerar modelos preditivos que além de serem eficazes em termos de acurácia são também facilmente interpretáveis por usuários não técnicos um diferencial essencial em ambientes corporativos que demandam decisões justificáveis e transparentes como no caso da previsão de churn de clientes Em outro estudo Verhoeven et al 2023 demonstram como os AGs podem ser aplicados de forma eficaz na otimização da gestão de receitas particularmente em cenários que envolvem planejamento de recursos alocação de demanda e mix de produtos sob condições de incerteza Nessas situações os algoritmos genéticos destacamse por sua habilidade de explorar o espaço de busca de forma inteligente evitando soluções locais e encontrando configurações robustas que atendem simultaneamente a múltiplos objetivos e restrições O ciclo evolutivo promovido pelos AGs seleção cruzamento e mutação permite a adaptação contínua do modelo às particularidades do problema analisado o que os torna especialmente úteis em cenários de alta dimensionalidade ausência de soluções analíticas e relações não lineares entre variáveis Sua capacidade de incorporação de conhecimento prévio do domínio também contribui para a geração de modelos mais relevantes e aderentes à realidade prática A Figura abaixo ilustra de forma esquemática o funcionamento geral de um Algoritmo Genético desde a criação da população inicial até a convergência para uma solução otimizada Figura 10 Estrutura de Funcionamento de um Algoritmo Genético 88 Capítulo 2 Revisão da Literatura Fonte Adaptado pelo autor 2025 Ao comparar os AGs com outras técnicas de aprendizado de máquina discutidas neste trabalho como Árvores de Decisão Random Forests e Redes Neurais Artificiais percebese que cada abordagem oferece vantagens distintas As Árvores de Decisão e a Random Forest são valorizadas por sua capacidade interpretativa e estabilidade preditiva as Redes Neurais se destacam pela flexibilidade e acurácia em dados complexos e volumosos e os Algoritmos Genéticos por sua vez sobressaemse em problemas de otimização multivariada onde a busca por uma configuração ótima é mais importante do que a simples classificação Dessa forma os AGs não competem com essas técnicas mas sim as complementam permitindo a construção de pipelines híbridos de modelagem e análise nos quais a robustez precisão e interpretabilidade são maximizadas Seu uso estratégico alinhado ao conhecimento do domínio e aos objetivos analíticos 89 Capítulo 2 Revisão da Literatura representa uma poderosa alternativa para transformar dados brutos em insights acionáveis em diversas áreas como marketing logística saúde e finanças 22 SEGMENTAÇÃO DE CLIENTES No contexto empresarial contemporâneo marcado por mercados altamente competitivos dinâmicos e saturados as organizações enfrentam desafios cada vez mais complexos para fidelizar clientes manter uma base de consumidores engajada e otimizar processos de venda que demandam personalização e agilidade Nesse cenário a segmentação de clientes se revela como uma metodologia estratégica imprescindível para a formulação de ações de marketing mais eficazes o desenvolvimento de campanhas direcionadas a melhoria da retenção e sobretudo a maximização do valor do tempo de vida do cliente LTV Customer Lifetime Value indicador que mensura o retorno financeiro potencial que cada cliente pode gerar ao longo de sua relação com a empresa Para garantir o sucesso dessa abordagem é essencial a aplicação de técnicas analíticas e estatísticas robustas que assegurem a qualidade e a relevância dos segmentos formados Isso inclui a avaliação criteriosa da pureza e uniformidade interna dos grupos de modo a garantir que os clientes agrupados compartilhem características e comportamentos similares a clara diferenciação entre os segmentos para que cada grupo represente um perfil distinto e estrategicamente útil a aplicação rigorosa de testes de hipóteses para validar estatisticamente as diferenças observadas além da análise das correlações entre os segmentos e variáveis de negócio relevantes como ticket médio frequência de compra e canais de aquisição Tais análises são fundamentais não só para validar a robustez dos agrupamentos mas também para transformar dados em insights práticos que embasem decisões estratégicas e operacionais da organização Este estudo aborda de maneira sistemática os múltiplos aspectos interligados da segmentação de clientes Inicialmente focase na avaliação da coesão interna dos segmentos garantindo que cada grupo apresente alta homogeneidade o que facilita a compreensão de perfis de clientes e a personalização de estratégias Posteriormente explorase a diferenciação entre grupos assegurando que os segmentos sejam suficientemente distintos para 90 Capítulo 2 Revisão da Literatura justificar ações de marketing diferenciadas e específicas potencializando o impacto das campanhas e a eficácia do relacionamento com o cliente Além disso os testes de hipóteses desempenham papel crucial ao fornecer uma base estatística para comparar segmentos confirmando que as diferenças observadas são significativas e não fruto do acaso Complementarmente a análise de correlação entre segmentos e indicadores de desempenho do negócio permite identificar quais grupos apresentam maior potencial para contribuir com o crescimento e a rentabilidade da empresa direcionando recursos para iniciativas com maior retorno sobre investimento ROI Por fim o estudo aprofundase na análise dos indicadores financeiros centrais para a gestão de clientes como o Custo de Aquisição de Cliente CAC e o Customer Lifetime Value LTV A compreensão detalhada desses conceitos possibilita avaliar a rentabilidade e a viabilidade econômica dos segmentos orientando a definição de estratégias que promovam crescimento sustentável e equilíbrio financeiro Essa visão integrada entre análise estatística segmentação estratégica e métricas financeiras configurase como um diferencial competitivo permitindo às organizações não apenas responder às demandas atuais do mercado mas também antecipar oportunidades otimizar investimentos e fortalecer o relacionamento com diferentes perfis de clientes 221 Pureza E Uniformidade Dos Segmentos A pureza e a uniformidade são critérios fundamentais para avaliar a consistência interna e a qualidade dos segmentos ou grupos formados em um conjunto de dados especialmente no contexto da segmentação de clientes A pureza referese à proporção de membros dentro de um segmento que compartilham uma mesma característicaalvo evidenciando a predominância de uma categoria específica seja um perfil demográfico comportamento de consumo ou faixa etária Em outras palavras um segmento puro indica que a maior parte dos elementos pertence a uma única classe bem definida o que facilita a interpretação e aplicação prática do grupo 91 Capítulo 2 Revisão da Literatura Por outro lado a uniformidade analisa a homogeneidade das características internas do segmento em múltiplas dimensões Ela mede o grau de similaridade entre os membros do grupo considerando diferentes atributos simultaneamente o que confere uma visão mais ampla da coesão do segmento Uma alta uniformidade significa que os clientes dentro do grupo compartilham um conjunto de características semelhantes reforçando a robustez e a validade do agrupamento A avaliação combinada da pureza e da uniformidade é essencial para verificar se os agrupamentos gerados possuem coesão interna suficiente para serem úteis do ponto de vista analítico e estratégico Grupos homogêneos que apresentam alta pureza e uniformidade indicam que as necessidades e comportamentos dos clientes são mais alinhados aumentando a probabilidade de sucesso das estratégias personalizadas como campanhas de marketing direcionadas ofertas segmentadas e planos de fidelização específicos Para mensurar esses critérios ferramentas computacionais baseadas em Python são frequentemente utilizadas com o apoio de bibliotecas como scikitlearn numpy e pandas que possibilitam cálculos quantitativos precisos e análises estatísticas detalhadas No processo de avaliação diferentes cenários são possíveis Alta Pureza Quando a maioria dos membros do segmento compartilha a mesma característica dominante indicando uma forte coesão interna e maior previsibilidade do comportamento dos clientes o que facilita a formulação de ações específicas e eficazes Baixa Pureza Quando o grupo apresenta uma mistura significativa de características distintas revelando uma ligação interna fraca e alta heterogeneidade o que pode sugerir a necessidade de revisitar os critérios de segmentação ou realizar um reagrupamento para aprimorar a consistência dos grupos A uniformidade pode ser medida por meio da Entropia um conceito extraído da Teoria da Informação que quantifica o grau de incerteza ou desordem em um conjunto de dados Na análise dos segmentos a entropia assume um papel crucial 92 Capítulo 2 Revisão da Literatura Baixa Entropia Indica alta uniformidade significando que os membros do grupo são bastante semelhantes com pouca variação interna o que fortalece a utilidade do segmento para ações direcionadas e específicas Alta Entropia Reflete grande diversidade dentro do segmento sugerindo baixa uniformidade e dificultando a aplicação de estratégias padronizadas pois o comportamento dos membros é mais disperso Em suma segmentos considerados puros e uniformes com alta pureza e baixa entropia são preferíveis pois oferecem maior clareza interpretativa e permitem o desenvolvimento de ações de marketing e relacionamento mais eficazes e direcionadas Esses grupos fornecem uma base sólida para a personalização o que é fundamental para a maximização do valor do cliente e a otimização dos recursos da organização Exemplificando essa abordagem Dahana et al 2019 investigaram a pureza e uniformidade dos segmentos baseandose em características relacionadas ao estilo de vida e comportamento de compra evidenciando que grupos bem definidos aprimoram significativamente a precisão das previsões do Customer Lifetime Value LTV Já Verbeke et al 2011 destacam o uso de algoritmos genéticos como o AntMiner para garantir a coesão interna dos grupos promovendo agrupamentos fundamentados em regras claras e interpretáveis o que facilita a aplicação prática dos resultados por profissionais de marketing e analistas de dados 222 Diferenciação Entre Segmento A distinção entre os grupos é fundamental para garantir que sejam exclusivos e abrangentes ao mesmo tempo Essa distinção clara assegura que cada grupo represente um perfil específico e não se sobreponha a outros o que facilita a alocação eficiente de recursos e a definição de mensagens e ações customizadas Uma clara separação entre os grupos facilita a criação de estratégias de marketing direcionadas tornandoas mais eficazes e eficientes já que permite identificar necessidades comportamentos e preferências de forma mais precisa Essa diferenciação torna possível a personalização de campanhas ofertas canais de 93 Capítulo 2 Revisão da Literatura comunicação e até mesmo o desenvolvimento de produtos específicos para determinados segmentos A diferenciação entre grupos pode ser medida por meio de diferentes métricas e métodos estatísticos que auxiliam na quantificação da distância variação e significância entre os agrupamentos Alguns deles são amplamente utilizados na literatura e na prática analítica Distância entre Centros dos Agrupamentos Centroides Análise de Variância ANOVA Teste de Hipóteses Testes T A distância entre centros dos agrupamentos Centroides é uma maneira direta e intuitiva de avaliar a diferenciação entre grupos calculando a distância euclidiana ou outras métricas como Manhattan ou Mahalanobis entre os centroides pontos médios dos agrupamentos Quanto maior for essa distância maior será a diferenciação entre os grupos em termos das variáveis consideradas na segmentação ou seja Alta Distância Sinaliza uma grande diferenciação entre os grupos sugerindo que os agrupamentos são bem separados no espaço de atributos e possuem características únicas o que favorece o uso prático dos segmentos Baixa Distância Indica uma baixa diferenciação mostrando que os agrupamentos são semelhantes e podem não representar grupos distintos de forma clara exigindo possivelmente revisão dos critérios de segmentação A Análise de Variância ANOVA é uma técnica estatística utilizada para comparar as médias de várias amostras ou grupos e verificar se pelo menos uma delas difere significativamente das outras Esse método é essencial para validar se as diferenças observadas entre os grupos são estatisticamente significativas ou se podem ser atribuídas ao acaso Os principais resultados da ANOVA são 94 Capítulo 2 Revisão da Literatura Um Festatístico alto e um valorp baixo geralmente 005 indicam que pelo menos uma média de grupo difere significativamente das outras sugerindo distinção real entre os grupos Um Festatístico baixo e um valorp alto sugerem que não há evidências suficientes para afirmar que as médias são diferentes enfraquecendo a validade da segmentação Os testes de hipótese Testes T são utilizados para comparar as médias de dois grupos e verificar se são estatisticamente diferentes entre si Esses testes são úteis em análises parapar especialmente quando o número de grupos é pequeno Para comparações múltiplas a ANOVA é mais apropriada embora os testes T continuem úteis em análises pontuais As interpretações são similares Um Testatístico alto e um valorp baixo apontam que as médias dos dois grupos são significativamente diferentes Um Testatístico baixo e um valorp alto indicam que não há diferença estatisticamente significativa entre as médias dos grupos comparados De acordo com estudos de Dahana et al 2019 a diferenciação entre grupos foi feita com base em características comportamentais e psicográficas dos consumidores resultando em segmentos que apresentaram diferenças significativas em métricas como o valor vitalício do cliente LTV permitindo estratégias específicas e mais rentáveis para cada perfil Da mesma forma Cumps et al 2009 empregaram técnicas baseadas em algoritmos genéticos para estruturar grupos claramente distintos assegurando que cada agrupamento tivesse identidade própria e viabilizando a implementação de estratégias comerciais mais direcionadas eficazes e alinhadas aos objetivos do negócio 223 Matriz De Confusão 95 Capítulo 2 Revisão da Literatura A matriz de confusão é uma ferramenta essencial e amplamente utilizada para avaliar o desempenho de modelos de classificação como os empregados para prever o Valor do Tempo de Vida do Cliente LTV ou a probabilidade de churn rotatividade Ela organiza em forma tabular os resultados das previsões feitas pelo modelo em relação aos valores reais conhecidos permitindo a identificação clara de acertos e erros cometidos pelo algoritmo Essa visualização facilita o diagnóstico de problemas como desbalanceamento de classes ou viés de previsão A matriz apresenta os seguintes elementos fundamentais Verdadeiros Positivos VP instâncias positivas corretamente classificadas como positivas Falsos Positivos FP instâncias negativas incorretamente classificadas como positivas Verdadeiros Negativos VN instâncias negativas corretamente classificadas como negativas Falsos Negativos FN instâncias positivas incorretamente classificadas como negativas A partir de uma matriz de confusão diversas métricas de desempenho podem ser extraídas para fornecer uma análise detalhada da performance do classificador permitindo avaliar sua eficácia sob diferentes perspectivas As principais métricas incluem Acurácia A proporção total de previsões corretas VP VN sobre o total de amostras analisadas Representa uma visão geral do desempenho do modelo mas pode ser enganosa em casos de classes desbalanceadas 96 Capítulo 2 Revisão da Literatura Precisão ou Valor Preditivo Positivo Mede a proporção de verdadeiros positivos entre todos os casos classificados como positivos Indica o quão confiável é o modelo quando prevê uma classe positiva Recall ou SensibilidadeRevocação Mede a capacidade do modelo em identificar corretamente todas as instâncias positivas reais É especialmente importante em contextos onde a omissão de positivos é crítica como retenção de clientes com alto LTV F1Score Combina precisão e recall em uma única métrica calculando a média harmônica entre elas É útil quando há necessidade de balancear ambas as métricas especialmente em cenários com dados desbalanceados Especificidade Mede a capacidade do modelo de identificar corretamente as instâncias negativas ou seja quantos verdadeiros negativos foram corretamente detectados entre todos os casos realmente negativos 97 Capítulo 2 Revisão da Literatura Essas métricas são especialmente valiosas em contextos empresariais pois permitem entender o desempenho de modelos que classificam clientes com diferentes potenciais de retorno LTV alto médio ou baixo bem como antecipar clientes propensos à evasão No estudo de Zhang et al 2022 a matriz de confusão foi empregada como ferramenta central para avaliar a precisão das previsões do LTV evidenciando a efetividade do método proposto na classificação correta dos clientes com maior potencial de receita Os autores demonstraram que o uso de métricas derivadas da matriz ajudou a aprimorar os modelos por meio de ajustes finos nos parâmetros e balanceamento entre classes Similarmente Verbeke et al 2011 também utilizam a matriz de confusão para avaliar a acurácia dos modelos preditivos especialmente na previsão da rotatividade de clientes churn ressaltando a importância dessa ferramenta na validação e no refinamento contínuo dos modelos de previsão A análise detalhada dos erros de classificação permitiu aos autores identificar padrões ocultos e ajustar algoritmos para melhorar a sensibilidade a classes minoritárias que são de alta relevância estratégica para o negócio 224 testes e hipóteses Os testes de hipóteses são amplamente utilizados para comparar grupos e determinar se as diferenças observadas nas características dos clientes possuem significância estatística Essas análises permitem inferir com base em dados amostrais se as variações entre os grupos são reais ou se poderiam ter ocorrido por acaso contribuindo para decisões mais fundamentadas e confiáveis Ao aplicar testes de hipóteses no contexto de segmentação evitase a adoção de estratégias baseadas em padrões espúrios ou interpretações subjetivas promovendo maior rigor na análise dos dados Entre os testes mais comuns estão o teste t de Student para comparação entre dois grupos e a ANOVA para múltiplos grupos Ambos são úteis para comparar médias de variáveis como frequência de compra valor médio gasto ou engajamento digital A interpretação dos resultados é feita com base no valorp que 98 Capítulo 2 Revisão da Literatura representa a probabilidade de se observar uma diferença tão extrema quanto a verificada caso a hipótese nula de que não há diferença seja verdadeira Assim Um valorp baixo geralmente menor que 005 leva à rejeição da hipótese nula indicando que a diferença observada é estatisticamente significativa Um valorp alto sugere que não há evidência suficiente para afirmar que os grupos diferem significativamente No estudo conduzido por Zhang et al 2022 foram empregados testes de hipóteses para comparar diferentes grupos de clientes com base em atributos demográficos e comportamentais A análise estatística confirmou que as variações entre os grupos não eram aleatórias validando a importância dessas diferenças para a segmentação e consequentemente para a definição de estratégias de marketing mais direcionadas e personalizadas O uso criterioso de testes permitiu identificar quais variáveis mais influenciam o valor do tempo de vida do cliente LTV e como diferentes perfis se comportam ao longo do ciclo de relacionamento com a empresa Adicionalmente Verhoeven et al 2023 empregaram essas análises em um contexto voltado à gestão de receitas avaliando a eficácia de diversas estratégias aplicadas a grupos distintos de clientes Os testes de hipóteses foram essenciais para verificar quais abordagens apresentaram diferenças significativas nos resultados obtidos evidenciando a utilidade desses testes na validação empírica das práticas adotadas na segmentação e no planejamento de campanhas personalizadas Os resultados reforçaram que estratégias baseadas em análises estatisticamente embasadas tendem a apresentar maior retorno e previsibilidade o que é vital para a tomada de decisões em ambientes competitivos 225 Análise de correlação entre segmentos e variáveis de negócios A análise de correlação investiga as relações estatísticas entre os grupos de clientes e indicadores empresariais relevantes como receita frequência de compras ticket médio taxa de recompra e especialmente o Valor do Tempo de Vida do Cliente LTV Esse tipo de análise é fundamental para identificar quais segmentos contribuem mais significativamente para o desempenho do negócio 99 Capítulo 2 Revisão da Literatura possibilitando uma visão estratégica baseada em dados e não apenas em suposições A correlação é geralmente quantificada por coeficientes como o coeficiente de correlação de Pearson que mede a força e direção de uma relação linear entre duas variáveis Valores próximos de 1 indicam correlação positiva forte valores próximos de 1 indicam correlação negativa forte e valores próximos de 0 indicam ausência de relação linear significativa Essa métrica é essencial para avaliar o impacto potencial de diferentes segmentos nas variáveis de negócio guiando decisões como alocação de orçamento personalização de ofertas e definição de prioridades comerciais No estudo realizado por Zhang et al 2022 uma análise correlacional foi conduzida com o intuito de examinar a relação entre os grupos de clientes e o LTV revelando que determinados grupos apresentavam uma correlação mais expressiva com altos valores de LTV Isso permitiu à equipe identificar quais perfis de clientes mereciam maior atenção em termos de retenção e investimento em marketing reforçando a importância de priorizar segmentos com maior potencial de retorno financeiro A importância da análise de correlação na identificação de padrões e na compreensão do impacto dos diferentes segmentos nas variáveis de negócios é amplamente reconhecida na literatura de marketing e gestão Segundo Malhotra 2018 essa ferramenta estatística oferece aos gestores uma visão analítica sobre como as características dos segmentos de mercado se relacionam com indicadores de desempenho auxiliando na tomada de decisões estratégicas baseadas em evidências concretas Ao permitir a identificação de relações ocultas entre os perfis de clientes e os resultados da empresa a análise de correlação apoia o direcionamento mais preciso de recursos e esforços para os grupos de clientes mais rentáveis engajados ou promissores Com isso as organizações conseguem otimizar campanhas melhorar a alocação de orçamento e aprimorar a performance de vendas marketing e atendimento garantindo que as decisões estejam alinhadas com o comportamento real do mercado 100 Capítulo 2 Revisão da Literatura 226 Interpretação Dos Resultados E Indicadores A interpretação dos resultados constitui uma etapa crítica dentro do ciclo de desenvolvimento de modelos analíticos e preditivos especialmente no contexto da segmentação de clientes e previsão de métricas de valor como o Lifetime Value LTV Tratase da fase em que os resultados quantitativos obtidos ao longo do processo de modelagem são transformados em informações qualitativas compreensíveis e aplicáveis ao contexto organizacional com o objetivo de embasar decisões estratégicas fundamentadas em dados A eficácia de um modelo é comumente avaliada por meio de indicadores de desempenho como acurácia precisão recall e F1score os quais oferecem diferentes perspectivas sobre a qualidade das previsões A seleção e interpretação adequadas desses indicadores são essenciais para entender não apenas se o modelo funciona mas como e em que situações ele apresenta melhores desempenhos A acurácia por exemplo mede a proporção de previsões corretas entre todas as realizadas sendo uma métrica intuitiva e útil em contextos em que as classes estão balanceadas No entanto em situações com desbalanceamento de classes essa métrica pode mascarar o desempenho real do modelo A precisão indica a proporção de verdadeiros positivos entre todas as predições positivas feitas pelo modelo sendo especialmente relevante em cenários em que falsos positivos devem ser minimizados como em campanhas de retenção de clientes O recall ou sensibilidade mede a capacidade do modelo de identificar corretamente todos os casos positivos o que é crucial quando o custo de perder instâncias positivas como clientes de alto valor que estão prestes a churnar é elevado 101 Capítulo 2 Revisão da Literatura A pontuação F1 combina precisão e recall em uma média harmônica balanceando ambas as métricas em um único valor Essa medida é particularmente valiosa em contextos de classes desbalanceadas como frequentemente ocorre em análises de churn detecção de fraudes ou segmentações com grupos de baixa representatividade No estudo de Dahana et al 2019 por exemplo a interpretação dos resultados foi conduzida com base em uma análise integrada desses indicadores Os autores demonstraram que os modelos aplicados à segmentação de clientes e à estimativa do LTV apresentaram níveis elevados de F1score e recall evidenciando sua robustez e confiabilidade especialmente no que diz respeito à capacidade de identificar clientes de alto valor potencial Essa abordagem reforça a importância de considerar múltiplas métricas para compreender os pontos fortes e limitações do modelo de maneira abrangente Além da análise técnica dos resultados a compreensão contextual dos achados é essencial para garantir que os insights gerados tenham aplicabilidade prática no ambiente de negócios Verbeke et al 2011 argumentam que a simples obtenção de métricas estatisticamente satisfatórias não garante a utilidade dos modelos sendo fundamental realizar uma interpretação aprofundada e orientada ao negócio Isso inclui compreender como os segmentos identificados se relacionam com as estratégias comerciais da empresa quais variáveis influenciam significativamente o comportamento dos clientes e quais ações podem ser derivadas diretamente das previsões realizadas como campanhas direcionadas melhorias no atendimento ou políticas de fidelização Dessa forma a etapa de interpretação atua como um elo entre a modelagem analítica e a ação gerencial transformando resultados técnicos em conhecimento aplicado que contribui efetivamente para a melhoria dos processos decisórios e para a maximização do valor gerado pela análise de dados 227 CAC e LTV 102 Capítulo 2 Revisão da Literatura O Valor do Tempo de Vida do Cliente conhecido pela sigla LTV Customer Lifetime Value é uma métrica central no marketing orientado por dados e na inteligência analítica que mensura o valor econômico total que uma empresa espera obter ao longo de todo o relacionamento com um cliente Essa métrica considera não apenas o valor imediato das compras mas também incorpora a frequência das interações a fidelidade o engajamento contínuo e as indicações que o cliente pode gerar refletindo assim o impacto financeiro futuro que o cliente representa para a organização Pesquisas recentes como as conduzidas por Pollak 2021 Zhang et al 2022 Li et al 2022 Afiniti 2022 e Su et al 2023 destacam o LTV como um indicador estratégico imprescindível para a sustentabilidade e expansão dos negócios em mercados altamente competitivos e voláteis A dinâmica contemporânea dos mercados marcada pela aceleração das mudanças econômicas e pela transformação constante do comportamento do consumidor reforça a necessidade das empresas em cultivar relacionamentos duradouros e rentáveis A fidelização de clientes deixou de ser um diferencial competitivo opcional para se converter em um pilar essencial à sobrevivência empresarial especialmente em setores que exigem rápida adaptação e inovação contínua Nesse sentido o LTV emerge como uma variável crítica nas tomadas de decisão pois oferece uma visão abrangente do valor que cada cliente aporta ao longo do tempo superando a visão limitada de lucro por transação isolada Na prática o entendimento aprofundado do LTV permite às empresas realizar segmentações mais refinadas direcionar campanhas de marketing com maior precisão e priorizar investimentos em perfis de clientes que apresentam maior potencial de retorno Essa abordagem resulta em uma alocação otimizada de recursos eleva a rentabilidade por cliente e melhora significativamente as taxas de retenção e satisfação Além disso a métrica contribui para a avaliação do retorno sobre investimento ROI em ações de aquisição e fidelização fornecendo uma base sólida para decisões de investimento mais fundamentadas e eficazes Para uma gestão comercial robusta e eficiente o conhecimento do LTV deve ser articulado com o Custo de Aquisição de Cliente CAC A análise conjunta dessas métricas gera indicadoreschave como a razão LTVCAC que é amplamente utilizada para medir a viabilidade e a sustentabilidade financeira das estratégias de crescimento Quando o LTV supera consistentemente o CAC indica 103 Capítulo 2 Revisão da Literatura se que a empresa está obtendo lucro sustentável a partir do investimento em seus clientes Por outro lado um LTV inferior ao CAC aponta para a necessidade urgente de revisão das estratégias de aquisição e retenção evitando que o negócio comprometa sua rentabilidade a longo prazo Além disso a integração do LTV com a segmentação de clientes enriquece a compreensão do comportamento e do valor de diferentes perfis orientando estratégias comerciais e de relacionamento que maximizam o impacto financeiro Essa integração possibilita o desenvolvimento de modelos preditivos e classificatórios sofisticados capazes de identificar clientes com alto potencial de valor ajustar canais de comunicação estabelecer políticas de preços e descontos mais eficazes e otimizar o desempenho das equipes comerciais e de marketing Em suma o LTV é uma métrica estratégica que transcende o simples acompanhamento de vendas fornecendo uma perspectiva de longo prazo que fortalece a capacidade das empresas de crescerem de maneira sustentável competitiva e orientada ao cliente 2271 CAC Customer Acquisition Cost O Custo de Aquisição de Clientes CAC é um indicadorchave que mede os gastos totais com marketing e vendas realizados com o objetivo de conquistar novos clientes Tratase portanto de uma estimativa do investimento médio necessário para converter um lead em cliente ativo incluindo ações diretas e indiretas que influenciam o processo de decisão do consumidor Como destacado por Wu et al 2023 o CAC tem papel central nas análises de desempenho comercial e sustentabilidade financeira de empresas orientadas por dados Na concepção de Burelli 2019 a maioria das empresas aloca uma parte significativa de sua receita nas áreas de marketing e vendas com a expectativa de retorno na forma de expansão de base de clientes e aumento de receita Nesse sentido é crucial que as organizações realizem uma análise detalhada sobre o montante investido em canais específicos como mídia paga inbound marketing feiras equipes comerciais entre outros e o número de clientes efetivamente captados por meio de cada um deles Essa análise é fundamental para identificar os 104 Capítulo 2 Revisão da Literatura canais mais eficientes e lucrativos otimizando os esforços comerciais e maximizando o retorno sobre investimento como também é ressaltado por Pollak 2021 Em conformidade com essa perspectiva Afiniti 2022 destaca que a aquisição de um novo cliente frequentemente requer um investimento inicial elevado que não se limita à comunicação e publicidade do produto ou serviço mas também envolve custos operacionais com equipes de vendas ferramentas de CRM estrutura de atendimento e treinamentos Esse esforço financeiro visa estruturar e escalar o negócio especialmente em mercados altamente competitivos ou em fases de expansão acelerada Como resultado a aquisição de clientes pode representar uma das maiores despesas operacionais de uma organização podendo em cenários extremos ultrapassar 50 do faturamento bruto especialmente em startups ou empresas em estágio inicial Dada a materialidade do investimento em aquisição o acompanhamento rigoroso e contínuo do CAC tornase essencial para uma gestão orientada por indicadores Este KPI permite que líderes de vendas analistas de marketing e executivos de alto escalão como CEOs e CFOs tenham uma visão clara do crescimento atual do negócio e da viabilidade econômica desse crescimento no médio e longo prazo Ele ainda possibilita identificar gargalos desperdícios e oportunidades de melhoria nos processos comerciais e de comunicação Nessa perspectiva o cálculo do CAC pode ser representado pela seguinte fórmula CACCmv Nc Onde CAC é o Custo de Aquisição de Cliente Cmv é o custo total de marketing e vendas para a aquisição de clientes investimentos Nc é o número de novos clientes adquiridos 105 Capítulo 2 Revisão da Literatura Essa fórmula embora de aplicação conceitualmente simples exige cuidado na obtenção dos dados O desafio prático recai sobre a atribuição precisa dos investimentos aos canais corretos bem como a correta contabilização dos clientes originados em função desses gastos especialmente em contextos com múltiplos pontos de contato vendas indiretas ou ciclos longos de conversão É fundamental ressaltar que o CAC não inclui custos fixos de produção ou despesas administrativas tampouco investimentos em pesquisa e desenvolvimento suporte técnico jurídico ou financeiro Ele deve incluir exclusivamente os custos relacionados às áreas de vendas e marketing tais como salários de equipes comerciais mídia paga comissões plataformas de automação eventos e até mesmo custos incorridos com leads que não converteram em clientes já que fazem parte do custo médio de aquisição Assim para a sustentabilidade de um modelo de negócios o custo de aquisição de clientes não pode ser superior ao valor que esse cliente gera para a organização ao longo de seu relacionamento o Lifetime Value LTV Como enfatizado por Li et al 2022 a relação LTVCAC deve idealmente ser superior a 31 indicando que o valor gerado por um cliente supera amplamente o custo de aquisição garantindo rentabilidade e escalabilidade ao modelo comercial 2272 LTV Lifetime Value O Lifetime Value LTV de um cliente conforme já abordado anteriormente seção 228 referese ao valor financeiro total que um cliente gera para a empresa ao longo de todo o seu relacionamento com a marca Essa métrica projeta com base em dados históricos e estimativas futuras o montante líquido que a organização pode esperar obter de um cliente individual até o término do vínculo comercial Olnén 2022 complementa essa definição ao destacar que o LTV representa o lucro médio gerado pelo cliente no período analisado já considerando os custos variáveis associados ao seu ciclo de vida como atendimento suporte marketing de retenção e operação logística Isso reforça a importância de tratar o LTV não apenas 106 Capítulo 2 Revisão da Literatura como um indicativo de receita mas como uma medida direta de rentabilidade por cliente De forma mais precisa o LTV pode ser definido como a receita líquida total esperada pela empresa ao longo de todo o tempo em que o cliente se mantiver ativo ou seja subtraídos os custos diretamente atribuíveis ao atendimento de suas necessidades Dessa maneira ele permite avaliar a viabilidade econômica de estratégias de aquisição fidelização e desenvolvimento de relacionamento com diferentes segmentos de clientes Segundo a abordagem proposta por Zhang et al 2022 o cálculo do LTV deve considerar essencialmente três fatores fundamentais 1 Margem de Contribuição corresponde à receita anual gerada pelo cliente descontadas as despesas operacionais diretas envolvidas em seu atendimento Reflete o lucro líquido obtido com o cliente em cada período 2 Taxa de Retenção Retention Rate representa o percentual de clientes que permanecem ativos de um período para o outro sendo crucial para estimar a duração média do relacionamento e por consequência o valor total gerado 3 Taxa de Desconto expressa o custo de capital da empresa ou o valor do dinheiro no tempo É aplicada para converter os fluxos de caixa futuros gerados pelo cliente em valor presente permitindo uma avaliação realista da rentabilidade futura Além da estimativa do valor monetário o tempo de vida do cliente Lifetime ou LTR Lifetime Retention também é uma variável importante A seguir é apresentada a fórmula para o cálculo do Lifespan L baseado na churn rate LTRL 1 C Onde 107 Capítulo 2 Revisão da Literatura L é o tempo de vida útil esperado do cliente em períodos como anos ou meses C é a Churn Rate ou taxa de evasão dos clientes no período A fórmula da taxa de churn é CP I Em que P representa o número de clientes perdidos no período I é o número de clientes ativos no início do período Substituindo essa expressão na fórmula do Lifespan temos LTRL I P I Ou seja a fórmula final simplificada tornase LTRL I P Esse cálculo fornece uma estimativa direta da longevidade média dos clientes com base na proporção entre os clientes retidos e os perdidos Quanto menor a taxa de churn maior o tempo de vida do cliente refletindo um relacionamento mais estável e duradouro com maior potencial de geração de receita A partir da compreensão dessas fórmulas e dos conceitos de LTV e LTR verificase que o cálculo dessas métricas é fundamental para entender a viabilidade do negócio sua capacidade de gerar valor sustentável e sua eficiência na alocação de recursos em marketing e vendas Elas permitem antecipar retornos definir prioridades e orientar decisões estratégicas baseadas em dados Entretanto é importante ressaltar que nenhuma métrica quando analisada isoladamente é capaz de oferecer uma compreensão completa do cenário de 108 Capítulo 2 Revisão da Literatura negócios A análise conjunta do LTV do LTR e do CAC Custo de Aquisição de Clientes proporciona uma visão mais holística e acionável permitindo avaliar o equilíbrio entre aquisição retenção e rentabilidade Somente com essa perspectiva integrada é possível garantir a sustentabilidade e o crescimento saudável da base de clientes ao longo do tempo 23 SEGMENTAÇÃO DE CLIENTES B2B A segmentação de clientes no ambiente B2B BusinesstoBusiness constitui uma prática estratégica fundamental para organizações que almejam direcionar de forma mais eficaz seus recursos de marketing vendas e atendimento sobretudo em mercados de alta competitividade e com estruturas complexas de decisão Diferentemente do contexto B2C BusinesstoConsumer onde a segmentação costuma se basear em critérios demográficos psicográficos e comportamentais de consumidores individuais o B2B apresenta desafios adicionais exigindo abordagens multidimensionais e profundamente analíticas Essas abordagens precisam considerar entre outros fatores o potencial de lucratividade de cada cliente empresarial a previsibilidade do relacionamento a longo prazo o grau de alinhamento estratégico entre as soluções ofertadas e as necessidades do cliente e indicadores quantitativos fundamentais como o Lifetime Value LTV e o Custo de Aquisição de Clientes CAC que oferecem uma visão financeira do relacionamento KOTLER KELLER 2016 A análise segmentada da base de clientes quando orientada por dados e fundamentada em modelos analíticos preditivos ou classificatórios permite identificar perfis empresariais com maior propensão a gerar retorno financeiro contínuo Essa abordagem baseada em dados favorece decisões como a priorização de esforços comerciais em contas de alto valor a personalização de ofertas de produtos preços ou serviços conforme as demandas do segmento 109 Capítulo 2 Revisão da Literatura e a reavaliação da alocação orçamentária em canais de marketing prospecção e suporte de modo a otimizar o uso dos recursos disponíveis O ambiente B2B é marcado por características específicas que aumentam sua complexidade ciclos de venda mais longos e imprevisíveis envolvimento de múltiplos tomadores de decisão ex áreas técnica financeira e jurídica negociações altamente personalizadas e por vezes consultivas contratos de valor elevado e prazos longos menor volume de transações mas com maior impacto unitário na receita Diante desse cenário adotar uma estratégia de segmentação robusta e baseada em valor não é apenas recomendável mas imperativo para o sucesso organizacional e a sustentabilidade das ações comerciais no médio e longo prazo De acordo com Kumar 2018 empresas que adotam práticas de segmentação baseadas no valor do cliente apresentam resultados superiores em rentabilidade e fidelização além de reduzirem significativamente os custos com aquisição e retenção reflexo direto da maior assertividade nas ações Ademais a segmentação possibilita a personalização das comunicações produtos serviços e propostas de valor adaptandoos às necessidades dores e objetivos específicos de cada grupo ou vertical de clientes Essa customização orientada por dados não apenas melhora a experiência do cliente Customer Experience CX como também impulsiona os índices de retenção e reduz a taxa de evasão churn Pollak 2021 demonstra que a eficácia de ações de marketing personalizadas pode ser ampliada em até 30 quando são apoiadas por modelos de segmentação baseados em dados históricos e comportamento preditivo destacando o papel da inteligência comercial na formulação de estratégias centradas no cliente Assim a segmentação no B2B transcende o papel de agrupamento estático de contas e se posiciona como uma ferramenta dinâmica de gestão estratégica capaz de transformar dados em conhecimento e conhecimento em vantagem competitiva sustentável 110 Capítulo 2 Revisão da Literatura 231 Critérios relevantes para segmentação B2B A segmentação de clientes no ambiente B2B businesstobusiness exige uma abordagem criteriosa e multifacetada dada a complexidade e especificidade das relações comerciais entre empresas A literatura especializada aponta diversos critérios que podem ser empregados nesse processo cuja escolha está intrinsecamente ligada aos objetivos estratégicos do negócio à natureza do produto ou serviço oferecido e ao grau de maturidade analítica da organização De forma geral esses critérios podem ser organizados em três grandes categorias principais financeiros comportamentais e estratégicos Critérios Financeiros abrangem aspectos ligados ao desempenho econômico e capacidade financeira dos clientes corporativos Exemplos incluem o faturamento anual margem de lucro tamanho da empresa quantidade de colaboradores ou capital investido volume de compras e histórico de pagamentos Esses indicadores são essenciais para entender o potencial de investimento e o valor comercial de cada cliente além de auxiliar na priorização de esforços e recursos para segmentos com maior retorno esperado Critérios Comportamentais focam nas interações e padrões observados durante a jornada do cliente incluindo frequência e volume de compras lealdade à marca canais de compra preferidos tempo de relacionamento com a empresa e respostas a campanhas de marketing Esses fatores fornecem insights valiosos sobre o comportamento real dos clientes permitindo identificar segmentos com diferentes níveis de engajamento propensão à recompra e abertura para ofertas personalizadas Critérios Estratégicos envolvem características que refletem a importância e o alinhamento do cliente com os objetivos de longo prazo da empresa Entre eles destacamse o grau de influência no mercado potencial para parcerias estratégicas sinergia tecnológica perfil de inovação e maturidade digital Esses critérios ajudam a segmentar clientes não apenas pelo valor imediato mas também pelo papel que desempenham no ecossistema de negócios possibilitando a construção de relacionamentos duradouros e colaborativos 111 Capítulo 2 Revisão da Literatura A escolha e a combinação desses critérios devem ser orientadas por uma análise cuidadosa das necessidades específicas do negócio da disponibilidade e qualidade dos dados e da capacidade analítica da empresa Quando bem aplicados esses critérios viabilizam a criação de segmentos robustos relevantes e acionáveis que servem como base para estratégias comerciais mais eficazes campanhas de marketing direcionadas e uma gestão de relacionamento mais estratégica e personalizada no contexto B2B 2311 Critérios financeiros A literatura especializada identifica uma gama abrangente de critérios que podem ser utilizados no processo de segmentação de clientes no contexto B2B BusinesstoBusiness A escolha desses critérios depende em grande parte dos objetivos estratégicos do negócio do tipo de produto ou serviço oferecido da dinâmica do mercado de atuação e do nível de maturidade analítica e tecnológica da empresa À medida que as organizações avançam em seus processos de transformação digital e coleta de dados tornase possível aplicar segmentações mais refinadas e orientadas por insights Esses critérios podem ser agrupados de forma geral em três grandes categorias 1 Critérios Financeiros Consideram variáveis quantitativas que indicam a rentabilidade risco e potencial econômico do cliente Exemplos incluem Faturamento anual da empresacliente Ticket médio das compras realizadas Custo de Aquisição de Cliente CAC Lifetime Value LTV Margem de contribuição Volume de compras recorrentes Esses indicadores permitem priorizar contas com maior retorno financeiro esperado e avaliar a viabilidade econômica de estratégias específicas para cada 112 Capítulo 2 Revisão da Literatura grupo 2 Critérios Comportamentais Avaliam como o cliente interage com a empresa seus hábitos de compra frequência de relacionamento e respostas a campanhas comerciais ou de marketing Incluem Histórico de interações com canais de vendas online ou presencial Participação em programas de fidelidade ou eventos corporativos Nível de engajamento com conteúdos digitais emails webinars e books Tempo médio entre as compras buying cycle Velocidade de resposta em negociações Esses dados ajudam a identificar o nível de maturidade da conta seu potencial de crescimento e o tipo de abordagem comercial mais eficaz 3 Critérios Estratégicos Envolvem a adequação do cliente ao posicionamento da empresa e seu alinhamento com a proposta de valor visão de futuro ou até objetivos ESG Ambiental Social e Governança Exemplos Setor de atuação ex saúde varejo manufatura Modelo de negócio B2B B2C B2B2C etc Grau de sinergia tecnológica ou operacional com o portfólio atual Localização geográfica e potencial de expansão regional Potencial de parceria estratégica ou codesenvolvimento de soluções Esses critérios são fundamentais para selecionar contaschave key accounts definir nichos prioritários ou estruturar abordagens de vendas complexas como o AccountBased Marketing ABM A correta combinação entre essas dimensões permite que a segmentação B2B vá além da classificação superficial dos clientes promovendo uma visão mais holística e orientada a resultados Empresas que integram esses critérios de maneira sistemática conseguem priorizar oportunidades de maior valor otimizar a 113 Capítulo 2 Revisão da Literatura alocação de recursos comerciais e personalizar suas estratégias de relacionamento com maior precisão 2312Critérios comportamentais Os critérios comportamentais analisam o histórico de interação entre a empresa e seus clientes oferecendo insumos valiosos para a personalização de estratégias de marketing vendas e atendimento Ao contrário dos critérios puramente financeiros que focam na rentabilidade passada ou projetada os critérios comportamentais permitem avaliar o grau de engajamento maturidade e responsividade do cliente ao longo do tempo fornecendo uma visão mais rica sobre o relacionamento estabelecido com a organização Entre os principais exemplos de critérios comportamentais aplicáveis à segmentação B2B destacamse Frequência de compras e recorrência de pedidos identifica padrões de consumo regulares ou sazonais úteis para prever demandas e antecipar ofertas Tempo médio de relacionamento com a empresa mede a longevidade da parceria comercial o que pode estar correlacionado a confiança retenção e potencial de upselling Engajamento com canais de comunicação e suporte técnico avalia o envolvimento do cliente com emails chamadas reuniões abertura de chamados e uso de portais de autoatendimento Respostas a campanhas de marketing anteriores inclui taxas de abertura de emails cliques em links participação em eventos e conversões registradas em campanhas específicas DAHANA et al 2019 Esses dados são em geral extraídos de ferramentas integradas de gestão de relacionamento com o cliente CRM como Salesforce HubSpot ou Microsoft Dynamics bem como de plataformas de automação de marketing ex RD Station Mailchimp ActiveCampaign A análise conjunta dessas informações permite construir perfis de comportamento longitudinal com destaque para mudanças no 114 Capítulo 2 Revisão da Literatura padrão de consumo queda no engajamento ou sinais de churn iminente possibilitando ações preventivas Além disso esses critérios comportamentais conferem dinamismo à segmentação pois possibilitam que os segmentos evoluam com o tempo um conceito alinhado à segmentação preditiva e aos princípios de Customer Success Quando aplicados de forma consistente eles permitem à empresa desenvolver estratégias mais precisas e oportunas como campanhas de reativação de clientes inativos ofertas específicas baseadas em comportamento recente e até mesmo fluxos automatizados de nutrição e fidelização 2313 Critérios estratégicos Os critérios estratégicos avaliam o potencial de um cliente para contribuir com o crescimento futuro da empresa fornecedora indo além da rentabilidade imediata e considerando aspectos como sinergia de longo prazo valor estratégico da parceria e possibilidade de coevolução comercial Diferenciamse dos critérios financeiros e comportamentais por enfatizarem a perspectiva de alinhamento estrutural e estratégico entre as partes especialmente relevante no contexto B2B onde as relações tendem a ser mais duradouras e complexas São exemplos típicos desses critérios Potencial de expansão da conta upsellcrosssell referese à capacidade de aumentar o volume de negócios com o cliente ao oferecer produtos complementares crosssell ou upgrades de soluções upsell ampliando o valor da conta ao longo do tempo Aderência aos produtos ou serviços ofertados mede o grau de compatibilidade entre as soluções da empresa fornecedora e as necessidades atuais e futuras da empresa cliente Sinergia cultural e estratégica entre as empresas considera afinidades em termos de valores corporativos estilo de gestão visão de futuro e práticas 115 Capítulo 2 Revisão da Literatura comerciais fatores que facilitam a construção de parcerias sólidas e duradouras Posicionamento da empresa cliente dentro de seu próprio mercado avalia se o cliente é líder referência ou inovador em seu segmento o que pode gerar efeitos indiretos positivos como credibilidade visibilidade e influência no setor KANCHANAPOOM CHONGWATPOL 2022 Esses critérios embora mais qualitativos por natureza podem e devem ser operacionalizados de forma sistemática a partir de escalas de avaliação interna checklists padronizados entrevistas com executivos da área comercial e painéis de validação entre áreas técnicas e estratégicas Empresas mais maduras podem empregar métodos como análise multicritério AHPMCDA ou modelos de scoring ponderado para atribuir pesos a esses critérios e classificálos de forma consistente em sistemas de CRM ou plataformas de account planning Além disso os critérios estratégicos são frequentemente utilizados na definição de Key Accounts contaschave ABM AccountBased Marketing e planejamentos de parcerias estratégicas por permitirem identificar clientes que mesmo não sendo os mais rentáveis no curto prazo oferecem elevado potencial de valor estratégico e institucional para a empresa fornecedora seja pelo potencial de coinovação pela abertura de novos mercados ou pela influência que exercem no setor 232 Técnicas quantitativas para segmentação B2B Com a digitalização dos processos empresariais e o crescimento exponencial do volume e da variedade de dados disponíveis surgiram metodologias mais robustas escaláveis e automatizadas para a segmentação de clientes A incorporação de técnicas de ciência de dados e em especial de machine learning revolucionou a forma como as empresas identificam e compreendem seus públicos alvo permitindo o agrupamento de clientes com base em padrões ocultos que muitas vezes não são perceptíveis por métodos tradicionais ou análises univariadas 116 Capítulo 2 Revisão da Literatura Clusterização Técnicas de clusterização ou agrupamento não supervisionado são amplamente utilizadas na criação de segmentos homogêneos de clientes com base em similaridades de comportamento características transacionais ou atributos demográficos Entre os algoritmos mais populares destacamse Kmeans eficaz na formação de clusters com base na distância euclidiana entre variáveis previamente normalizadas sendo especialmente útil em bases de dados estruturadas com grande volume de observações Sua simplicidade e velocidade de execução o tornam adequado para aplicações em tempo real e dashboards interativos HAN KAMBER PEI 2011 DBSCAN DensityBased Spatial Clustering of Applications with Noise permite identificar clusters de forma flexível com base na densidade de pontos sendo eficaz na detecção de outliers e em situações em que os clusters não têm formato esférico Hierarchical Clustering constrói uma árvore de agrupamentos dendrograma útil para análises exploratórias especialmente quando o número ideal de clusters não é conhecido previamente Modelos Supervisionados Modelos de aprendizado supervisionado são indicados quando o objetivo é prever variáveis de interesse como LTV Lifetime Value churn evasão ou propensão de compra Estes modelos aprendem com dados rotulados históricos e produzem classificações ou regressões com base em novos dados Destacamse Random Forest modelo baseado em árvores de decisão altamente robusto e interpretável adequado para previsão de churn e pontuação de clientes por risco 117 Capítulo 2 Revisão da Literatura Gradient Boosting Machines GBM XGBoost LightGBM técnicas poderosas que combinam vários modelos fracos para formar um preditor forte com excelente desempenho preditivo Redes Neurais Artificiais RNA recomendadas quando há uma alta complexidade nãolinear entre as variáveis sendo capazes de capturar padrões sofisticados especialmente em grandes bases Estudos como o de Bauer e Jannach 2021 evidenciam que o uso desses modelos supervisionados em estratégias de segmentação preditiva eleva significativamente a acurácia das decisões comerciais sobretudo em campanhas de retenção e recomendação Análise Fatorial A análise fatorial é uma técnica estatística que permite a redução da dimensionalidade de bases com muitas variáveis correlacionadas facilitando a interpretação dos dados e a identificação de fatores latentes que influenciam o comportamento dos clientes Por meio dela é possível agrupar variáveis que representam dimensões comuns como sensibilidade a preço grau de digitalização ou nível de interação com a marca A análise fatorial é especialmente útil em estudos de comportamento organizacional e pesquisas B2B com grande número de atributos qualitativos HAIR et al 2009 Processos KDD e CRISPDM Para garantir que a segmentação seja realizada de forma estruturada e alinhada aos objetivos organizacionais é recomendada a adoção de metodologias consolidadas de mineração de dados como KDD Knowledge Discovery in Databases define um processo sistemático que inclui seleção préprocessamento transformação mineração de dados e 118 Capítulo 2 Revisão da Literatura interpretação dos resultados FAYYAD et al 1996 CRISPDM Cross Industry Standard Process for Data Mining modelo de referência amplamente utilizado na indústria que organiza o processo de ciência de dados em seis fases interdependentes compreensão do negócio compreensão dos dados preparação dos dados modelagem avaliação e implantação A adoção desses modelos metodológicos assegura que o projeto de segmentação seja consistente replicável e orientado a resultados promovendo integração entre áreas técnicas e de negócio e contribuindo para uma governança analítica mais madura 233 Desafios atuais e perspectivas futuras Embora as técnicas analíticas e ferramentas de modelagem estejam cada vez mais acessíveis e democratizadas a segmentação B2B ainda enfrenta obstáculos significativos que comprometem a eficácia dos modelos implementados e a escalabilidade das estratégias geradas a partir deles Entre os principais desafios destacamse Fragmentação dos dados entre diferentes sistemas legados ERP CRM BI que dificulta a obtenção de uma visão única e consolidada do cliente comprometendo a consistência das análises Baixa qualidade incompletude ou desatualização dos dados fatores que afetam diretamente os resultados da modelagem preditiva e aumentam o risco de viés e inferências incorretas Falta de integração entre as áreas de marketing vendas e tecnologia da informação o que impede a implantação eficaz de estratégias baseadas em dados e dificulta a governança analítica organizacional 119 Capítulo 2 Revisão da Literatura Mudanças rápidas no comportamento dos clientes especialmente em cenários de incerteza ou crise como observado durante e após a pandemia de COVID19 que exigem modelos mais ágeis adaptativos e sensíveis ao tempo LI et al 2022 Como resposta a esses desafios observase uma tendência crescente à adoção de sistemas de segmentação dinâmica baseados em inteligência artificial e análise em tempo real Essas soluções buscam substituir os modelos estáticos e rígidos por abordagens adaptativas que acompanham o ciclo de vida do cliente em tempo contínuo O uso de algoritmos de deep learning redes neurais convolucionais e técnicas de análise de sentimentos aplicadas a interações textuais como emails chats transcrições de reuniões virtuais e chamadas telefônicas tem possibilitado uma visão mais rica e preditiva da jornada do cliente B2B permitindo intervenções mais precisas e tempestivas SU et al 2023 HUANG RUST 2020 A evolução da segmentação de clientes no ambiente B2B acompanha essa transformação passouse de abordagens empíricas e intuitivas baseadas em julgamento de especialistas ou histórico comercial para modelos matematicamente fundamentados e orientados por dados com validação estatística e capacidade de generalização Nesse novo paradigma a utilização combinada de métricas financeiras como o LTV Lifetime Value e o CAC Custo de Aquisição de Clientes associada a algoritmos de machine learning supervisionados e não supervisionados permite a construção de segmentos altamente eficazes na maximização do valor do cliente com benefícios diretos em rentabilidade fidelização e ROI de campanhas A abordagem datadriven portanto não apenas amplia o conhecimento sobre os clientes como também potencializa a personalização de ofertas a eficiência operacional e a competitividade das organizações Em vez de se basear em segmentações fixas ela permite modelos responsivos e continuamente atualizados ajustandose conforme os dados comportamentais contextuais e mercadológicos evoluem Dessa forma a compreensão aprofundada dos critérios de segmentação o domínio das técnicas de análise de dados e sobretudo a integração entre áreas estratégicas como marketing vendas TI e inteligência de mercado tornamse pilares fundamentais para o sucesso das estratégias comerciais no cenário B2B 120 Capítulo 2 Revisão da Literatura contemporâneo Esse alinhamento é indispensável para garantir que os insights gerados pela análise de dados se traduzam em ações efetivas e orientadas a resultados Estudos futuros devem considerar entre outras vertentes promissoras a evolução dos modelos de inteligência artificial generativa com potencial para criar perfis sintéticos simular jornadas de clientes e gerar conteúdos personalizados em escala bem como a integração de dados não estruturados como voz texto livre imagens e vídeos nos modelos preditivos de valor e comportamento Essa integração representa um novo patamar de sofisticação analítica com impacto direto na assertividade automação e personalização da segmentação B2B 121 CAPÍTULO III 3 TRABALHOS CORRELATOS A segmentação de clientes e a gestão do valor que cada cliente representa ao longo do tempo são temas centrais na literatura contemporânea de marketing estratégico e gestão de relacionamento Essas práticas surgem como respostas fundamentais à necessidade de alocar recursos de forma eficiente em mercados cada vez mais saturados competitivos e orientados por dados Nesse contexto Kotler e Keller 2006 argumentam que as empresas não devem tentar satisfazer indiscriminadamente todos os consumidores mas sim concentrar seus esforços naqueles que demonstram maior potencial de retorno financeiro Para esses autores um cliente lucrativo é definido como uma pessoa família ou empresa cujas receitas ao longo da vida excedem em um valor aceitável os custos da empresa para atrair vender e atender esse cliente A partir dessa concepção emerge o conceito de Lifetime Value LTV ou Valor do Tempo de Vida do Cliente como uma métricachave para orientar decisões estratégicas relacionadas à aquisição retenção e expansão do relacionamento com os clientes O LTV permite quantificar o valor econômico de longo prazo gerado por cada cliente funcionando como um guia para decisões mais inteligentes sobre quais perfis merecem investimentos contínuos e quais podem ser despriorizados A capacidade de identificar prever e gerenciar clientes de alto valor tornou se atualmente um dos pilares das estratégias empresariais focadas em performance e fidelização sustentável O LTV consolidouse como uma métrica central não só para o planejamento de ações comerciais e de marketing mas também como critério essencial para segmentação preditiva orçamentação estratégica alocação eficiente de recursos multicanal e projeção de retorno sobre investimento ROI Sua importância crescente é respaldada por diversos estudos contemporâneos como os de Pollak 2021 Zhang et al 2022 Li et al 2022 Afiniti 2022 e Su et al 2023 Esses pesquisadores demonstram que o LTV sintetiza de maneira integrada os benefícios econômicos gerados pelas interações dos clientes com a organização ao longo de todo o ciclo de vida permitindo que as 122 empresas tomem decisões mais assertivas tanto no nível operacional quanto no tático e estratégico Em ambientes 123 Capítulo 3 Trabalhos Correlatos digitais e omnichannel caracterizados pela volatilidade e distribuição dispersa do comportamento do consumidor a modelagem do LTV tornase ainda mais crítica para antecipar churn identificar oportunidades de upsell e definir prioridades de atendimento No campo aplicado Kanchanapoom e Chongwatpol 2022 apresentam um modelo de segmentação orientado pelo LTV no setor de medicina complementar e alternativa um mercado marcado pela importância de relacionamentos de longo prazo e construção gradual de confiança Os autores propõem a divisão dos clientes em quatro segmentos distintos que combinam critérios de valor e lealdade à marca Este modelo visa identificar os segmentos com maior potencial futuro servindo como instrumento preditivo para direcionar decisões comerciais e de marketing A classificação segmenta os clientes em i alto valor e alta lealdade onde a recomendação é fortalecer e preservar o vínculo ii alto valor e baixa lealdade em que o foco deve ser aumentar a fidelização iii baixo valor e alta lealdade nos quais é recomendada a maximização do retorno com possível descontinuação futura e iv baixo valor e baixa lealdade que podem ser alvo de desvinculação gradual Essa abordagem permite uma alocação de recursos mais eficiente alinhada ao retorno potencial previsto enfatizando a importância de estratégias direcionadas personalizadas e sustentáveis de relacionamento com o cliente Figura 11 Proposta de segmentação de clientes baseado no valor ao longo da sua vida e na sua lealdade à marca 124 Capítulo 3 Trabalhos Correlatos Fonte Adaptado pelo autor O estudo de Afiniti 2022 reforça a centralidade do LTV na tomada de decisões gerenciais especialmente em setores com modelos contratuais de relacionamento com clientes Os autores argumentam que uma estimativa acurada do valor vitalício do cliente é essencial para o alinhamento entre investimentos em aquisição e o retorno financeiro projetado ao longo do tempo Para esse fim propõem um modelo flexível de riscos proporcionais que permite incorporar a probabilidade de churn evasão como variávelchave no cálculo do LTV A abordagem parte do pressuposto de que a organização possui um modelo de churn minimamente calibrado cuja integração à modelagem de LTV permite calcular com maior precisão o tempo esperado de permanência de um cliente ponderando esse tempo pelos lucros esperados em cada período Isso torna o modelo particularmente adequado para ambientes com relações contratuais explícitas como telecomunicações seguros ou assinaturas de serviços digitais onde os fluxos de receita são previsíveis mas dependem criticamente da retenção de clientes Complementarmente Su et al 2023 enfrentam um dos principais desafios relacionados à modelagem do LTV em ambientes não contratuais e altamente dinâmicos como plataformas de publicidade online Nesses contextos os dados de consumo por usuário tendem a ser escassos fragmentados ou inconsistentes dentro de um único domínio de análise Como alternativa os autores propõem uma estrutura adaptativa entre domínios denominada CDAF CrossDomain Adaptive Framework que permite a transferência de aprendizado de um domínio com dados abundantes por exemplo uma plataforma digital consolidada para outro domínio com dados mais limitados como uma plataforma emergente O método proposto busca mitigar dois problemas simultâneos i a escassez de dados históricos de consumo e ii o desalinhamento estatístico entre os domínios fonte e alvo Para isso a CDAF adota uma arquitetura que aprende padrões gerais de LTV em plataformas relacionadas preservando a generalização e ajustando as distribuições para o novo domínio Essa estratégia permite realizar predições mais robustas mesmo em ambientes onde a informação direta sobre o comportamento dos usuários ainda está em formação destacandose como um exemplo promissor de 125 Capítulo 3 Trabalhos Correlatos transferência de aprendizado transfer learning no campo de modelagem de valor de cliente Na mesma linha de enfrentamento das limitações dos modelos tradicionais Zhang et al 2022 destacam que o LTV ao mensurar a contribuição econômica de longo prazo de clientes ao longo de relacionamentos contínuos com produtos ou serviços pode fornecer insumos decisivos para a definição de estratégias de entrega de valor No entanto os autores argumentam que as abordagens atuais enfrentam dois entraves significativos por um lado a incapacidade de modelar adequadamente relações temporais e não lineares por outro a ausência de soluções computacionalmente viáveis para grandes volumes de dados Em resposta Zhang e colaboradores propõem um modelo geral de LTV que supera a fragmentação das abordagens anteriores ao integrar aspectos de longo prazo em vez de se limitar a estimativas baseadas em cliques ou compras recentes Para alcançar esse objetivo os autores implementam uma solução de programação dinâmica rápida baseada em um método de bisseção mutado e na hipótese de experimentação sem memória o que permite acelerar o processo de otimização dos parâmetros envolvidos na projeção do LTV Essa proposta se mostra particularmente eficaz para aplicações em ambientes digitais e plataformas de serviços contínuos onde o comportamento do cliente é complexo e a avaliação de seu valor futuro exige uma abordagem preditiva mais sofisticada e adaptável Pollak 2021 explora um dos principais desafios enfrentados pelas empresas ao prever o Lifetime Value LTV de clientes em contextos não contratuais nos quais a relação com o consumidor é descontinuada ou intermitente Nesse tipo de ambiente onde não há garantias explícitas de continuidade da relação comercial a estimativa do valor vitalício do cliente tornase dependente essencialmente de padrões históricos de compra Com isso a previsão exige um modelo que consiga inferir comportamentos futuros a partir de dados passados O autor realiza uma comparação entre dois métodos o primeiro baseado no modelo estatístico conhecido como compre até morrer BuyTillYouDie Model que utiliza dados transacionais anteriores para modelar a propensão de recompra até a morte do cliente ie inatividade o segundo uma rede neural artificial aplicada ao mesmo conjunto de dados A análise realizada oferece resultados quantitativos e qualitativos que comparam a precisão a robustez e a aplicabilidade prática de ambas as 126 Capítulo 3 Trabalhos Correlatos abordagens Como conclusão Pollak propõe diretrizes práticas para que gestores de marketing escolham o modelo mais adequado a depender do tipo de dado disponível da complexidade do domínio e do objetivo estratégico da organização Em complemento Bauer e Jannach 2021 propõem um conjunto de técnicas baseadas em inteligência artificial que visam elevar a precisão das previsões de LTV em contextos altamente dinâmicos como o comércio eletrônico e plataformas digitais Dentre as inovações destacadas encontrase o uso de redes neurais recorrentes RNNs capazes de capturar dependências temporais nas interações entre clientes e produtos o que permite uma modelagem mais realista do comportamento sequencial de compra Além disso os autores empregam modelos de atenção attention models que aumentam a capacidade da rede em focar seletivamente em eventos relevantes da sequência de interação melhorando a capacidade preditiva Para lidar com a qualidade variável dos dados é sugerido um préprocessamento avançado que inclui tratamento de valores ausentes normalização e codificação apropriada de variáveis categóricas Um dos diferenciais do estudo é a introdução de modelos Seq2Seq SequencetoSequence comumente utilizados em tarefas como tradução automática mas aqui aplicados para mapear a sequência completa de interações clienteproduto ao longo do tempo Por fim Bauer e Jannach propõem uma arquitetura híbrida combinando modelos baseados em características featurebased com modelos sequenciais de modo a explorar as vantagens de ambas as abordagens mitigando as limitações associadas a soluções isoladas Essa proposta representa um avanço no campo da modelagem preditiva especialmente no que diz respeito à complexidade comportamental dos consumidores digitais No mesmo escopo Li et al 2022 enfrentam o desafio da previsão do LTV em ambientes de altíssima escala como plataformas digitais com bilhões de usuários Nesse cenário a modelagem tradicional tornase inviável devido à diversidade de perfis de usuários à alta variabilidade dos dados e à necessidade de predições em tempo real A solução proposta pelos autores foi aplicada em uma empresa de tecnologia chinesa de grande porte utilizando um arcabouço robusto de ciência de dados e aprendizado de máquina que inclui algoritmos de previsão baseados em séries temporais machine learning supervisionado processamento em tempo real e inteligência artificial adaptativa A proposta se destaca pela 127 Capítulo 3 Trabalhos Correlatos capacidade de processar grandes volumes de dados de forma eficiente e responsiva permitindo que as predições de LTV sejam atualizadas dinamicamente conforme o comportamento do usuário evolui Essa abordagem demonstra que além da sofisticação algorítmica é imprescindível escalabilidade e integração com sistemas operacionais de negócio para garantir que as previsões de valor de cliente possam ser utilizadas de forma prática ágil e alinhada às necessidades de mercado Olnén 2022 destaca que a precisão na estimativa do Lifetime Value LTV é um fator determinante para organizações que desejam otimizar suas estratégias de relacionamento com o cliente e ao mesmo tempo maximizar a rentabilidade no longo prazo Para alcançar esse objetivo o autor emprega técnicas avançadas de aprendizado de máquina com ênfase em redes neurais profundas deep learning que se mostram particularmente eficazes na captura das complexidades e nuances comportamentais dos consumidores Esses modelos computacionais têm a capacidade de aprender a partir de grandes volumes de dados históricos padrões sutis em variáveis como frequência de compras valor transacional médio e nível de engajamento com os serviços prestados permitindo uma previsão mais acurada do valor futuro de cada cliente Ainda segundo Olnén 2022 uma compreensão aprofundada do LTV previsto capacita as empresas não apenas a avaliar o retorno sobre o investimento ROI em campanhas de marketing mas também a tomar decisões estratégicas quanto ao valor de mercado da própria empresa especialmente em contextos de aquisição fusão ou abertura de capital Além disso ao classificar os clientes com base em seu LTV estimado os profissionais de marketing podem realocar de forma mais eficiente os recursos destinados à aquisição retenção ou estratégias de upsell e crosssell O autor também chama atenção para uma característica estatística frequentemente presente nas distribuições de LTV a cauda pesada isto é a presença de poucos clientes que geram valores muito elevados contrastando com a maioria que gera menor retorno Diante disso o desempenho dos modelos preditivos é avaliado a partir de dois critérios principais discriminação que verifica a capacidade de distinguir entre clientes de alto e baixo valor e calibração que mede a proximidade entre os valores previstos e os valores reais observados Contudo o processo de ponderação entre essas métricas segundo Olnén é oneroso e sujeito a vieses dado que exige análise manual Com base nos experimentos relatados o autor 128 Capítulo 3 Trabalhos Correlatos infere que a discriminação tende a receber 19 vezes mais peso que a calibração durante a avaliação dos modelos indicando uma priorização prática da capacidade de segmentação sobre a exatidão absoluta das previsões O autor também observa que há uma lacuna na literatura quanto ao efeito do aumento do horizonte temporal de dados históricos sobre a precisão preditiva dos modelos o que sugere um campo promissor para futuras investigações No mesmo escopo de aplicação ao varejo digital Jasek et al 2019 argumentam que a escolha de um modelo LTV apropriado é uma etapa crucial para empresas que buscam implementar uma abordagem gerencial baseada em valor do cliente em suas plataformas de ecommerce B2C O contexto do varejo online impõe pressupostos e desafios específicos como a natureza não contratual do relacionamento com os clientes a recorrência imprevisível das compras e a variabilidade no comportamento de consumo ao longo do tempo Os autores conduzem uma análise comparativa entre onze diferentes modelos probabilísticos de previsão de LTV avaliando tanto o desempenho estatístico quanto a capacidade preditiva em cenários reais de comércio eletrônico Os resultados obtidos evidenciam que embora existam diversas abordagens teóricas para a previsão do LTV alguns modelos são claramente superiores quando aplicados a ambientes de alta complexidade e dinamismo como o varejo digital A pesquisa reforça assim a necessidade de adequação contextual na escolha do modelo tendo em vista as características operacionais do negócio os tipos de dados disponíveis e os objetivos estratégicos da organização Em última análise o estudo de Jasek et al ressalta que o entendimento profundo do valor do cliente é essencial para sustentar decisões comerciais assertivas promover a eficiência operacional e garantir vantagem competitiva sustentável no ambiente digital contemporâneo Win e Bo 2020 enfatizam que a segmentação de clientes com base no Lifetime Value LTV configura uma prática essencial no marketing contemporâneo especialmente em ambientes digitais competitivos Ao possibilitar a identificação e a priorização de grupos de clientes segundo seu valor financeiro estimado ao longo do tempo essa abordagem permite que as empresas otimizem seus investimentos em aquisição retenção e fidelização Os autores aplicam o algoritmo Random Forest um modelo de aprendizado de máquina supervisionado com o objetivo de prever a classe de LTV dos clientes em um horizonte de um ano Os resultados obtidos 129 Capítulo 3 Trabalhos Correlatos demonstram que esse tipo de técnica é eficaz para orientar decisões estratégicas em Customer Relationship Management CRM permitindo que o varejista direcione seus recursos para clientes com maior potencial de retorno aumentando a eficiência operacional e maximizando o valor agregado O estudo reforça assim a viabilidade e a aplicabilidade prática de métodos preditivos baseados em machine learning na formulação de estratégias de marketing no contexto digital Na mesma direção Dahana et al 2019 abordam o LTV como uma métrica crítica para a construção de estratégias de marketing eficazes especialmente em setores de rápida transformação como o varejo de moda online Em sua proposta metodológica os autores desenvolvem um modelo de classe latente que considera a frequência de compra a duração do ciclo de vida do cliente e o valor médio das transações como variáveis determinantes para inferir o LTV em diferentes segmentos de mercado O estudo introduz uma dimensão inovadora ao incorporar padrões de estilo de vida como variável explicativa para a heterogeneidade do LTV entre segmentos demonstrando que fatores comportamentais e psicográficos podem ter impacto substancial sobre o valor de longo prazo gerado pelos clientes Ao aplicar o modelo a um conjunto de dados reais de transações e perfis comportamentais de consumidores em uma plataforma de moda os autores demonstram a capacidade preditiva do modelo proposto ampliando as possibilidades de segmentação inteligente e customização de campanhas de marketing De forma complementar os próprios autores definem o LTV como o valor total esperado que a empresa pode obter de um único cliente ao longo de toda a duração do relacionamento considerando receita líquida e custos variáveis associados ao atendimento desse cliente o que alinha a métrica tanto à visão financeira quanto à perspectiva estratégica da organização No contexto da indústria de jogos digitais Burelli 2019 oferece uma contribuição relevante ao destacar os desafios e oportunidades na modelagem preditiva do comportamento dos jogadores especialmente em modelos de negócios orientados a serviços como os jogos FreetoPlay F2P Nesse tipo de modelo a ausência de barreiras iniciais de pagamento e a grande variação no comportamento de engajamento e de gastos tornam a previsão de receitas futuras altamente complexa O autor argumenta que diante dessa volatilidade tornase essencial dispor de modelos preditivos robustos capazes de fornecer suporte às decisões 130 Capítulo 3 Trabalhos Correlatos relacionadas à aquisição de usuários personalização de experiências ingame e otimização de recursos de desenvolvimento e operação O artigo ressalta que para que estratégias eficazes sejam implementadas é necessário entender não apenas as escolhas passadas dos jogadores mas também antecipar possíveis trajetórias futuras de comportamento utilizando dados históricos e técnicas avançadas de data science e aprendizado de máquina Nesse sentido a modelagem do LTV em jogos digitais não apenas amplia o entendimento sobre a economia do jogador mas também possibilita a definição de estratégias mais sustentáveis e orientadas por dados para monetização e retenção Wu et al 2023 exploram os desafios da previsão do Lifetime Value LTV em contextos onde a escassez de eventos de consumo e a alta variabilidade dos dados impõem barreiras significativas à precisão das estimativas Essa realidade é especialmente comum em aplicativos centrados no cliente nos quais a interação pode ser esporádica e os dados disponíveis são ruidosos ou incompletos Os autores criticam os métodos tradicionais que treinam preditores de LTV com base em uma única visão dos dados argumentando que essa abordagem tende a extrair conhecimento de forma limitada e potencialmente enviesada Para superar tais limitações propuseram uma estrutura de multivisualização contrastiva projetada como uma solução plugandplay PnP compatível com diferentes arquiteturas de modelos backbones Essa estrutura integra múltiplos regressores de LTV heterogêneos que trazem conhecimentos complementares resultando em maior robustez e precisão na estimativa do valor do cliente Além disso a utilização do aprendizado contrastivo permite capturar relações latentes entre amostras semelhantes mitigando a dependência da abundância de dados rotulados e reforçando a capacidade do modelo em generalizar padrões úteis No mesmo eixo de inovação metodológica Wang et al 2019 propõem uma abordagem estatística para a modelagem do LTV que leva em consideração tanto a probabilidade de churn rotatividade quanto a distribuição assimétrica dos dados de valor frequentemente observada em mercados com clientes de alto e baixo valor extremo A proposta metodológica baseiase em uma mistura entre massa de ponto zero e distribuição lognormal resultando na chamada distribuição lognormal inflada de zero ZILN Tal modelagem é especialmente eficaz para capturar a natureza de cauda pesada dos dados de LTV ao mesmo tempo em que quantifica a incerteza 131 Capítulo 3 Trabalhos Correlatos nas previsões pontuais o que é fundamental para a tomada de decisões estratégicas sob risco Os autores validam o modelo tanto em modelos lineares tradicionais quanto em redes neurais profundas DNNs evidenciando sua flexibilidade e adaptabilidade a diferentes contextos de aplicação Para avaliação da performance preditiva são utilizados o coeficiente de Gini normalizado que mede a capacidade discriminativa do modelo e gráficos de decil que avaliam a calibração das previsões Os resultados empíricos obtidos a partir de dois conjuntos de dados reais demonstram a eficácia do modelo ZILN para diferentes aplicações comerciais e níveis de granularidade nos dados Por fim Cao et al 2023 abordam a previsão do comportamento do consumidor e sua interseção com a otimização de sortimento ampliando a aplicação de modelos preditivos de valor para além da estimativa do LTV Os autores investigam a escolha do cliente a partir de uma mistura de modelos de demanda que combina a demanda independente com o modelo de logit multinomial refletindo a realidade de mercados nos quais diferentes segmentos de clientes seguem padrões de decisão distintos Nesse contexto cada produto do portfólio possui uma receita esperada associada e o objetivo do modelo é encontrar o sortimento ótimo ou seja a combinação de produtos que maximiza a receita esperada de um cliente A proposta metodológica mostra que esse problema pode ser resolvido de forma eficiente por meio da formulação e resolução de um programa linear tornando a abordagem viável do ponto de vista computacional Um dos principais achados do estudo é que o tamanho ideal do sortimento cresce proporcionalmente ao tamanho relativo do segmento de clientes que se comporta conforme o modelo de demanda independente implicando que diferentes perfis de comportamento exigem estratégias diferenciadas de oferta de produtos para a maximização de valor 132 CAPÍTULO IV 4 METODOLOGIA 41 TIPO DE PESQUISA Este trabalho propõe o desenvolvimento de uma metodologia prática de segmentação de clientes no contexto B2B com especial ênfase em empresas que atuam no setor de serviços de cobrança embora seus princípios e técnicas sejam igualmente aplicáveis a outros setores intensivos em relacionamento com clientes como tecnologia consultoria engenharia e indústria de base A base conceitual da proposta está ancorada na clássica visão de Kotler e Keller 2012 segundo a qual a segmentação é um dos pilares fundamentais para a efetividade das estratégias de marketing Para os autores o conhecimento aprofundado do perfil dos clientes e sua organização em grupos coerentes permite a alocação mais racional de recursos a personalização de ofertas e a maximização do retorno sobre os investimentos em vendas e relacionamento A metodologia sugerida fundamentase em técnicas de análise de dados e algoritmos de clusterização com o objetivo de agrupar os clientes conforme variáveis quantitativas e qualitativas como nível de faturamento porte organizacional número de funcionários tempo de relacionamento com a empresa e indicadores de performance Essa abordagem se alinha às etapas do processo de Knowledge Discovery in Databases KDD descrito por Fayyad et al 1996 cuja proposta é transformar grandes volumes de dados brutos em conhecimento aplicável e estratégico por meio de etapas sistemáticas que envolvem seleção pré processamento transformação mineração e interpretação dos dados A utilização da clusterização como técnica de segmentação permite que se identifiquem padrões ocultos no comportamento dos clientes fornecendo à equipe comercial subsídios para tomada de decisão mais precisa quanto às estratégias de abordagem retenção e reativação de clientes Tal como sugerem Tan Steinbach e Kumar 2019 a identificação de agrupamentos homogêneos a partir de dados históricos melhora substancialmente a capacidade preditiva das ações comerciais 133 Capítulo 4 Metodologia permitindo um direcionamento mais assertivo dos recursos e maior aderência entre o perfil do cliente e a proposta de valor da empresa Com isso a proposta metodológica contribui para otimizar indicadores centrais da gestão comercial como a redução do Custo de Aquisição de Clientes CAC e o aumento do Lifetime Value LTV compreendido como o valor total gerado por um cliente ao longo do seu ciclo de vida com a empresa KOTLER KELLER 2012 OLIVEIRA 2018 Dessa forma a segmentação baseada em dados reais ancorada no ciclo do KDD não apenas confere maior objetividade ao processo de gestão de clientes como também reforça a cultura datadriven na tomada de decisões estratégicas Ao final do processo a pesquisa evidencia como o uso de algoritmos de agrupamento pode representar uma poderosa ferramenta de apoio à gestão comercial e à inteligência de mercado com impactos diretos sobre a rentabilidade a fidelização de clientes e o posicionamento competitivo da organização no ambiente B2B 42 PROCEDIMENTOS METODOLÓGICOS A metodologia proposta neste trabalho está fundamentada no processo de Descoberta de Conhecimento em Bases de Dados Knowledge Discovery in Databases KDD estruturado de maneira sequencial iterativa e orientada à extração de conhecimento útil a partir de grandes volumes de dados O KDD será operacionalizado por meio de sete etapas interligadas seleção préprocessamento transformação mineração de dados avaliação interpretação e aplicação dos resultados no contexto de segmentação de clientes B2B A primeira etapa de seleção e coleta dos dados contempla a utilização de bases secundárias públicas e acessíveis contendo informações cadastrais e financeiras de empresas brasileiras que atuam em relações comerciais do tipo businesstobusiness B2B Os critérios para inclusão dos dados baseiamse em atributos relevantes para análise de rentabilidade e relacionamento comercial tais como faturamento anual número de funcionários tempo de operação no mercado e histórico de inadimplência 134 Capítulo 4 Metodologia Na etapa seguinte realizase o tratamento e préprocessamento dos dados essencial para garantir a qualidade e a integridade da base a ser analisada Serão aplicadas técnicas como identificação e remoção de ruídos inconsistências e valores ausentes com o apoio de métodos de imputação estatística e exclusão criteriosa de registros inválidos A normalização das variáveis será feita por meio de escalonamento MinMax e padronização por ZScore assegurando homogeneidade nas escalas numéricas Adicionalmente outliers serão detectados e tratados com base na análise gráfica de boxplots e nos limites estatísticos da amplitude interquartil IQR de forma a garantir a robustez dos modelos subsequentes Posteriormente será realizada a transformação e redução de dimensionalidade com o objetivo de condensar as variáveis mais relevantes e eliminar redundâncias sem perda significativa de informação Serão aplicadas técnicas como Análise Fatorial Exploratória AFE e Análise de Componentes Principais PCA que permitem extrair fatores latentes e otimizar a performance computacional dos algoritmos empregados nas etapas posteriores A segmentação dos clientes será conduzida por meio da técnica de clusterização não supervisionada Kmeans escolhida por sua eficiência computacional e simplicidade interpretativa A definição do número ideal de clusters será realizada com base em critérios objetivos como o Método do Cotovelo Elbow Method e a Pontuação de Silhueta Silhouette Score de modo a garantir a formação de grupos internamente homogêneos e externamente distintos A segmentação resultante permitirá a identificação de perfis comerciais com similaridades estruturais facilitando a definição de estratégias personalizadas Na sequência serão aplicados modelos de classificação e predição com o intuito de estimar o Lifetime Value LTV e a probabilidade de churn de cada cliente Para isso serão empregados algoritmos supervisionados como Árvores de Decisão Random Forest Redes Neurais Artificiais e Algoritmos Genéticos do tipo AntMiner A escolha dessas técnicas justificase por sua capacidade de capturar padrões complexos mesmo em contextos com alta dimensionalidade além de apresentarem boa interpretabilidade e desempenho preditivo comprovado na literatura A validação dos segmentos formados será realizada com base em métricas quantitativas e qualitativas Avaliarseá a pureza interna dos clusters isto é a 135 Capítulo 4 Metodologia proporção de membros que compartilham características predominantes bem como a diferenciação externa entre os grupos por meio da distância euclidiana entre os centroides e de testes estatísticos como ANOVA e Testes T Além disso será conduzida uma análise de correlação entre os segmentos formados e indicadores de negócio relevantes como LTV Custo de Aquisição de Clientes CAC e taxa de churn Por fim a etapa de interpretação dos resultados buscará traduzir os achados analíticos em insumos estratégicos para a gestão comercial A partir da caracterização dos segmentos será possível propor ações de relacionamento prioritárias otimizar a alocação de recursos de marketing e estruturar campanhas de retenção ou prospecção considerando o potencial de rentabilidade e o risco associado a cada grupo de clientes Assim esperase demonstrar como uma abordagem orientada por dados pode impulsionar a eficiência e a eficácia das estratégias de segmentação no contexto B2B 43 FERRAMENTAS E SOFTWARES As etapas de processamento análise e modelagem dos dados serão implementadas por meio da linguagem de programação Python amplamente adotada em projetos de ciência de dados devido à sua versatilidade robustez e vasta gama de bibliotecas especializadas A manipulação de dados tabulares e estruturas matriciais será realizada com o suporte das bibliotecas Pandas e NumPy permitindo uma organização eficiente dos dados e facilitando operações estatísticas agregações e transformações Para a identificação e visualização de valores ausentes será utilizada a biblioteca Missingno que oferece representações gráficas intuitivas para apoiar decisões sobre imputações ou exclusões Na etapa de modelagem preditiva e segmentação o framework Scikitlearn desempenhará papel central sendo responsável pela aplicação de algoritmos de clusterização como Kmeans classificação supervisionada como Random Forest e Árvores de Decisão além de ferramentas de préprocessamento normalização escalonamento e codificação e validação cruzada de modelos Para a redução de dimensionalidade e análise fatorial será empregada a biblioteca FactorAnalyzer que 136 Capítulo 4 Metodologia permite a extração de componentes principais e a avaliação da adequação das variáveis aos fatores latentes A visualização gráfica dos resultados será conduzida com o auxílio das bibliotecas Matplotlib e Seaborn que oferecem recursos avançados para gerar gráficos de dispersão boxplots mapas de calor histogramas e outras representações úteis para análise exploratória e apresentação dos achados Por fim a modelagem preditiva baseada em algoritmos genéticos será realizada por meio do AntMiner técnica que integra princípios de inteligência coletiva e evolução computacional proporcionando classificações interpretáveis e eficazes especialmente em cenários de regras de decisão complexas 44 LIMITAÇÕES METODOLÓGICAS O presente estudo apresenta algumas limitações que devem ser consideradas na interpretação e generalização dos resultados A principal restrição está relacionada à natureza secundária dos dados utilizados os quais apesar de representativos podem não abranger com exatidão todas as particularidades do mercado em análise Essa limitação compromete em certa medida a profundidade da inferência sobre comportamentos específicos ou dinâmicas emergentes em determinados nichos Além disso a aplicabilidade prática dos resultados obtidos está condicionada à relativa estabilidade dos padrões históricos de comportamento das empresas o que pode ser impactado por mudanças econômicas variações setoriais ou transformações estruturais nas estratégias de consumo e relacionamento entre empresas Outro fator que merece destaque é a complexidade interpretativa de alguns modelos analíticos empregados como as redes neurais artificiais cuja natureza de caixapreta pode dificultar a explicação dos critérios de segmentação para gestores não técnicos Essa característica pode gerar resistência organizacional à adoção de abordagens baseadas em ciência de dados especialmente em ambientes empresariais mais tradicionais nos quais a tomada de decisão ainda se baseia fortemente em heurísticas e experiências acumuladas A base de dados utilizada na pesquisa é denominada baseleadsokxlsx a qual contém registros reais de empresas que mantêm ou mantiveram algum tipo de relação comercial com uma prestadora de serviços de cobrança Conforme 137 Capítulo 4 Metodologia argumentam Han Kamber e Pei 2012 a qualidade consistência e relevância dos dados de entrada são determinantes para o êxito de qualquer projeto de mineração de dados justificando a escolha de uma base já consolidada revisada e organizada Essa escolha também está em consonância com as orientações de Fayyad et al 1996 sobre a importância da preparação de dados no ciclo KDD Knowledge Discovery in Databases etapa crítica que antecede a análise propriamente dita A base em questão reúne aproximadamente 1000 registros sendo que cada linha representa uma empresa única Os dados incluem tanto informações cadastrais básicas como razão social e setor de atuação quanto variáveis de maior relevância analítica como o Faturamento Presumido FatPres indicador do volume financeiro movimentado pela empresa e a Quantidade de Funcionários que permite inferir o porte organizacional Complementarmente a base contempla variáveis auxiliares como segmento de mercado localização geográfica risco de inadimplência e status de atividade que foram utilizadas de forma exploratória na etapa inicial do estudo Essas informações adicionais contribuíram para verificar a consistência dos clusters gerados bem como a sua capacidade de representar grupos economicamente e operacionalmente distintos Em linha com as contribuições de Kotler e Keller 2012 compreender o tamanho a complexidade e o potencial de consumo de cada cliente é um passo fundamental para qualquer iniciativa de segmentação orientada a resultados especialmente no contexto B2B onde os volumes transacionais e os ciclos de relacionamento tendem a ser mais longos Ao optar por uma base realista e alinhada ao mercado de atuação da empresa em questão o estudo assegura maior aplicabilidade dos seus achados Dessa forma os clusters resultantes da análise podem ser efetivamente utilizados como subsídio à atuação da equipe comercial permitindo a personalização de estratégias de prospecção abordagem e retenção de acordo com o perfil identificado de cada segmento KOTLER KELLER 2012 OLIVEIRA 2018 441 Pré Processamento 138 Capítulo 4 Metodologia Após a escolha da base de dados foi necessário realizar o pré processamento etapa considerada essencial em qualquer projeto de mineração de dados e que influencia diretamente a qualidade dos modelos e das interpretações subsequentes FAYYAD et al 1996 HAN KAMBER PEI 2012 O pré processamento tem como objetivo central preparar os dados de forma a garantir que os algoritmos de análise operem sobre um conjunto coerente livre de ruídos e inconsistências maximizando a confiabilidade dos resultados A primeira atividade conduzida nesse processo foi a etapa de limpeza dos dados que consistiu na verificação detalhada da qualidade dos registros bem como na identificação e eliminação de inconsistências erros de digitação duplicatas e valores ausentes Conforme alertam Han Kamber e Pei 2012 a presença de dados incompletos ou imprecisos pode comprometer profundamente o desempenho de modelos preditivos e de agrupamento levando a interpretações equivocadas e à tomada de decisões inadequadas Durante essa análise observouse que diversas linhas da base não apresentavam valores preenchidos em campos considerados críticos especialmente o Faturamento Presumido FatPres e a Quantidade de Funcionários variáveis fundamentais para o processo de clusterização Por essa razão optouse pela exclusão de todos os registros incompletos nessas variáveis de modo a assegurar a integridade e a consistência da análise posterior A segunda etapa consistiu na transformação dos dados mais especificamente na aplicação de uma função logarítmica sobre os valores de faturamento Essa técnica é amplamente utilizada em estudos que lidam com variáveis financeiras dada a frequência de distribuições assimétricas e a presença de outliers severos ou seja empresas cujos faturamentos são excepcionalmente altos em comparação com a média da amostra TAN STEINBACH KUMAR 2019 Ao aplicar o logaritmo reduzse a amplitude dos valores comprimindo as escalas e permitindo uma análise mais homogênea Essa transformação é particularmente útil em algoritmos de agrupamento baseados em distância como o Kmeans pois evita que empresas muito grandes exerçam influência desproporcional na definição dos centroides dos clusters HAN KAMBER PEI 2012 Tratase portanto de uma etapa crucial para garantir que a segmentação reflita padrões reais de similaridade e não apenas diferenças de ordem de magnitude 139 Capítulo 4 Metodologia Além disso foi incorporada uma nova variável ao conjunto de dados denominada Desempenho do Cliente Essa variável não estava presente originalmente na base mas foi simulada com valores entre 1 e 10 com o intuito de ilustrar o potencial analítico da introdução de métricas qualitativas na segmentação de clientes Conforme salientam Kotler e Keller 2012 a avaliação do desempenho dos clientes deve considerar não apenas aspectos financeiros mas também comportamentais e relacionais como a regularidade nos pagamentos engajamento com os serviços e feedbacks operacionais Embora a métrica de desempenho utilizada neste estudo tenha caráter ilustrativo sua inclusão representa uma boa prática na modelagem orientada ao cliente permitindo a construção de estratégias mais personalizadas e eficientes Com essas ações de limpeza transformação e criação de variáveis adicionais a base de dados passou a apresentar melhores condições para a aplicação de técnicas de clusterização assegurando maior robustez estatística coerência analítica e aplicabilidade prática aos resultados obtidos 442 Análise Estatística Depois da etapa de preparação da base de dados foi conduzida uma análise estatística exploratória com o objetivo de compreender em maior profundidade as características dos dados disponíveis antes da aplicação dos métodos de agrupamento Conforme argumentam Han Kamber e Pei 2012 a análise exploratória constitui uma etapa indispensável no processo de mineração de dados pois permite identificar padrões inconsistências tendências e valores atípicos que podem comprometer a integridade dos resultados extraídos pelas técnicas posteriores O primeiro passo consistiu no cálculo de medidas estatísticas descritivas como média valor mínimo máximo e amplitude com ênfase nas variáveis de maior relevância para o estudo a saber Faturamento Presumido e Quantidade de Funcionários Como apontam Fayyad et al 1996 a obtenção de resumos estatísticos é uma prática fundamental para lidar com grandes volumes de dados uma vez que facilita a interpretação inicial e auxilia na identificação de assimetrias e 140 Capítulo 4 Metodologia possíveis distorções A análise revelou que embora a maior parte das empresas apresente faturamento em faixas intermediárias algumas registram valores extremamente elevados chegando a cifras bilionárias Essa disparidade justifica a aplicação da transformação logarítmica ao faturamento procedimento amplamente adotado em estudos financeiros com o intuito de minimizar a influência de outliers e promover uma distribuição mais equilibrada dos dados TAN STEINBACH KUMAR 2019 Quanto à Quantidade de Funcionários verificouse uma heterogeneidade significativa entre as empresas analisadas com registros que variam de microestruturas operacionais a grandes corporações Essa diversidade reforça a necessidade de considerar múltiplos atributos no processo de segmentação como defendido por Kotler e Keller 2012 que enfatizam a importância de reconhecer a pluralidade de perfis no ambiente B2B onde diferentes portes organizacionais implicam necessidades e comportamentos comerciais distintos Para aprofundar a análise foi examinada a correlação entre o faturamento e o porte das empresas representado pela quantidade de colaboradores Utilizouse para isso o coeficiente de correlação de Pearson ferramenta estatística indicada por Han Kamber e Pei 2012 para avaliar a intensidade da associação linear entre variáveis numéricas O valor obtido próximo de 0043 revelou uma correlação praticamente nula entre essas variáveis indicando que o número de funcionários não é por si só um preditor direto do faturamento empresarial Esse achado está em consonância com a realidade do mercado B2B onde empresas enxutas em termos de pessoal como firmas de consultoria ou tecnologia podem apresentar faturamentos elevados ao passo que organizações com grande número de funcionários como prestadoras de serviços operacionais podem operar com margens de receita mais modestas Para ilustrar visualmente essa constatação foi construída uma matriz de correlação Figura 1 conforme recomendação de Tan Steinbach e Kumar 2019 Essa ferramenta permite a representação gráfica da força de relação entre pares de variáveis Na diagonal principal observase sempre o valor 1 que representa a autocorrelação de cada variável consigo mesma Fora da diagonal o valor de 0043 entre Faturamento e Funcionários reforça visualmente a ausência de relação direta entre essas variáveis 141 Capítulo 4 Metodologia Figura 12 Matriz de correlação entre Faturamento e Quantidade de Funcionários Essa visualização evidencia que as variáveis analisadas não possuem dependência linear o que é um indicativo importante para o processo de clusterização Isso demonstra que não é possível nem prudente assumir que uma empresa com maior número de funcionários necessariamente gera mais receita ou viceversa Tal constatação justifica a decisão metodológica de manter ambas as variáveis na modelagem visto que cada uma oferece uma dimensão analítica distinta agregando valor à identificação de padrões e à construção dos grupos Ao utilizar essas variáveis em conjunto no processo de agrupamento o algoritmo pode captar nuances específicas do perfil organizacional dos clientes Por exemplo é possível identificar clusters compostos por empresas de alta receita e estrutura reduzida como startups de base tecnológica bem como grupos formados por organizações com muitos funcionários mas com faturamento relativamente menor como empresas do setor de serviços operacionais ou intensivos em mão de obra 142 Capítulo 4 Metodologia A integração de variáveis que capturam diferentes aspectos do perfil empresarial potencializa a eficácia da segmentação tornandoa mais robusta e alinhada às exigências do mercado Essa abordagem também se mostra coerente com os princípios defendidos por Kotler e Keller 2012 que argumentam que estratégias comerciais bemsucedidas no ambiente B2B exigem uma compreensão holística do comportamento do cliente Ao evitar reducionismos e considerar a complexidade dos dados aumentase a probabilidade de gerar grupos mais coerentes e úteis para a definição de ações estratégicas de vendas prospecção e relacionamento 443 Mineração De Dados Com a base de dados devidamente limpa transformada e explorada estatisticamente foi possível avançar para a etapa de mineração de dados considerada uma das fases mais importantes do processo de Descoberta de Conhecimento em Bases de Dados Knowledge Discovery in Databases KDD conforme proposto por Fayyad et al 1996 Esta fase é responsável por extrair padrões úteis e estruturados a partir de grandes volumes de dados sendo particularmente relevante em contextos empresariais que visam gerar inteligência competitiva No escopo desta pesquisa a mineração de dados tem como finalidade identificar padrões ocultos no perfil dos clientes empresariais possibilitando a criação de estratégias mais personalizadas e eficazes de relacionamento comercial marketing e vendas Para isso recorrese ao uso de técnicas de agrupamento também chamadas de clustering que possibilitam organizar os clientes em grupos homogêneos de acordo com semelhanças estruturais e comportamentais HAN KAMBER PEI 2012 Dentre os diversos algoritmos de agrupamento disponíveis optouse pelo uso do KMeans amplamente reconhecido na literatura por sua eficácia na segmentação de dados numéricos contínuos simplicidade conceitual e rapidez de execução TAN STEINBACH KUMAR 2019 Tratase de um algoritmo de clustering não supervisionado ou seja que não requer informações prévias sobre as classes ou categorias dos dados Seu funcionamento baseiase na medição da similaridade 143 Capítulo 4 Metodologia entre registros por meio da distância euclidiana atribuindo cada ponto ao centroide mais próximo e iterativamente recalculando a posição dos centroides até atingir a convergência A ausência da necessidade de rótulos prévios torna o KMeans especialmente adequado para ambientes em que os dados não foram previamente classificados como é o caso de muitas bases comerciais reais permitindo a descoberta de estruturas latentes com autonomia Além do seu rigor matemático o KMeans se destaca por ser um dos métodos mais acessíveis em termos computacionais podendo ser executado com eficiência mesmo em bases de grande porte Isso o torna uma ferramenta altamente viável para ser utilizada por equipes comerciais e de marketing que muitas vezes não dispõem de suporte técnico contínuo Outro diferencial relevante está na clareza dos seus resultados que facilita a interpretação e aplicação prática dos clusters identificados característica essencial quando se busca utilizar a análise de dados como ferramenta de apoio à tomada de decisão estratégica KOTLER KELLER 2012 Durante o delineamento metodológico deste trabalho outras técnicas também foram consideradas a fim de assegurar que a escolha do algoritmo mais adequado fosse pautada em critérios de coerência com os objetivos da pesquisa A Análise Fatorial por exemplo é frequentemente utilizada para redução de dimensionalidade agrupando variáveis correlacionadas em componentes principais e facilitando a visualização e interpretação de grandes conjuntos de dados HAIR et al 2009 Contudo como este estudo concentrouse em um número propositalmente reduzido de variáveis especificamente o Faturamento e a Quantidade de Funcionários optouse por não aplicar métodos de redução preservando a interpretação direta dos clusters gerados a partir dessas variáveis brutas De forma semelhante algoritmos supervisionados como Árvore de Decisão e Random Forest são frequentemente utilizados em tarefas preditivas em que existe um atributo de interesse variávelalvo conhecido e rotulado HAN KAMBER PEI 2012 Porém como a intenção deste trabalho não é prever um resultado específico mas sim descobrir padrões naturais de agrupamento entre empresas esses métodos supervisionados não se mostraram apropriados ao problema em questão Avaliaramse ainda abordagens mais sofisticadas como os algoritmos inspirados em inteligência de enxames por exemplo a Otimização por Colônia de Formigas Ant 144 Capítulo 4 Metodologia Colony Optimization ACO que apesar de sua eficácia em contextos de alta complexidade apresentam custo computacional elevado e exigem parametrização cuidadosa para convergir a soluções estáveis Tais requisitos dificultam sua aplicação em ambientes empresariais rotineiros nos quais a simplicidade operacional e a rapidez na obtenção de insights são características decisivas TAN STEINBACH KUMAR 2019 Dentro desses aspectos a escolha pelo algoritmo KMeans demonstrouse a mais adequada tanto do ponto de vista técnico quanto prático conciliando rigor analítico velocidade de processamento e usabilidade Essa decisão metodológica está em consonância com a proposta deste estudo que busca entregar uma solução robusta e aplicável para segmentação de clientes no contexto B2B promovendo uma análise baseada em dados com potencial de impacto direto nas estratégias comerciais da organização Diante das comparações realizadas entre diferentes abordagens o algoritmo KMeans foi definitivamente escolhido como a técnica central de agrupamento para este trabalho devido ao seu equilíbrio entre simplicidade operacional eficiência computacional qualidade dos agrupamentos gerados e clareza dos resultados obtidos Para determinar o número ótimo de clusters a ser utilizado no algoritmo foi aplicado o método do cotovelo elbow method amplamente recomendado por Han Kamber e Pei 2012 como uma das formas mais eficazes de validar a quantidade de agrupamentos em cenários não supervisionados Essa técnica consiste em calcular a soma das distâncias quadráticas dentro dos clusters inércia intracluster para diferentes valores de kkk e observar em qual ponto o ganho marginal na redução dessa inércia se torna pouco expressivo formando um cotovelo na curva o que indica o número ideal de clusters para balancear qualidade da segmentação e parcimônia interpretativa Figura 13 Gráfico do método do cotovelo para definição do número de clusters dados brutos 145 Capítulo 4 Metodologia A análise inicial foi realizada utilizando os dados de Faturamento na forma original sem transformações A Figura 2 apresenta o gráfico gerado nessa etapa em que se nota uma queda acentuada nos primeiros valores de kkk sinalizando que o algoritmo é eficaz em reduzir a variabilidade dentro dos grupos à medida que mais clusters são adicionados No entanto observase também que a partir de determinado ponto essa taxa de redução desacelera consideravelmente indicando que a adição de novos agrupamentos não oferece ganhos substanciais na compactação dos dados Esse comportamento é típico em bases com alta variabilidade interna HAN KAMBER PEI 2012 como aquelas compostas por registros financeiros empresariais e reforça a aplicabilidade do método do cotovelo como instrumento diagnóstico Apesar disso um obstáculo importante emergiu nessa primeira análise a presença de valores extremos de Faturamento outliers bastante comuns em bases do tipo B2B especialmente quando há empresas de grande porte inseridas no mesmo conjunto que pequenas e médias organizações Esses valores fora da curva distorcem a distribuição e afetam diretamente a métrica de inércia fazendo com que 146 Capítulo 4 Metodologia o gráfico do cotovelo perca definição e dificulte a visualização do ponto de inflexão exato Conforme descrevem Han Kamber e Pei 2012 esse fenômeno é recorrente em bases com ampla dispersão numérica e exige estratégias de tratamento específico como normalização ou transformação de escala Como solução foi adotada a transformação logarítmica da variável Faturamento prática consagrada na literatura estatística para lidar com distribuições assimétricas e escalas amplas especialmente em dados financeiros TAN STEINBACH KUMAR 2019 Ao aplicar o logaritmo as diferenças entre os valores se comprimem reduzindo a influência de outliers e equilibrando a contribuição dos dados para o cálculo da inércia A reaplicação do método do cotovelo com a nova variável transformada está ilustrada na Figura 3 Observase neste novo gráfico que a curva se torna mais suave e o ponto de inflexão mais nítido permitindo identificar com maior segurança o número ótimo de clusters a ser utilizado Essa transformação portanto não apenas melhora a qualidade estatística da análise como também fortalece sua robustez metodológica eliminando ruídos causados por distorções extremas na escala de Faturamento Complementarmente para reforçar a escolha do número de agrupamentos e validar visualmente a coerência dos clusters gerados foram elaborados gráficos de dispersão conforme recomendação de Han Kamber e Pei 2012 que destacam a importância da visualização como recurso para validar padrões de agrupamento e comunicar resultados de maneira acessível a públicos não técnicos A Figura 13 apresenta o gráfico de dispersão elaborado com os dados originais de Faturamento versus Quantidade de Funcionários e nela é possível perceber uma forte concentração de pontos em uma faixa estreita com alguns registros distantes à direita do plano representando empresas de altíssimo faturamento Essa compressão compromete a clareza da visualização e pode obscurecer os agrupamentos reais Em resposta a essa limitação foi gerado um novo gráfico de dispersão agora com o Faturamento transformado logaritmicamente conforme apresentado na Figura 5 Essa modificação melhora substancialmente a distribuição visual dos dados permitindo observar com mais nitidez como os pontos se organizam no espaço bidimensional e consequentemente como os clusters se definem Essa abordagem confirma de maneira empírica e visual que a transformação logarítmica 147 Capítulo 4 Metodologia não apenas aprimora os resultados do método do cotovelo mas também potencializa a capacidade do KMeans de formar grupos mais bem definidos coerentes e aderentes à realidade mercadológica Ao reduzir os efeitos dos extremos a análise tornase mais representativa da distribuição da maioria das empresas da base possibilitando a formulação de estratégias comerciais mais precisas e contextualizadas Figura 14 Gráfico do método do cotovelo com transformação logarítmica do Faturamento A análise do gráfico do método do cotovelo após a aplicação da transformação logarítmica sobre a variável Faturamento revelou uma mudança significativa no comportamento da curva Ao suavizar a distribuição dos dados a transformação eliminou distorções provocadas pelos valores extremamente elevados de algumas empresas que anteriormente exerciam influência desproporcional sobre os cálculos de inércia intracluster Como ressaltam Tan Steinbach e Kumar 2019 esse tipo de transformação é altamente recomendado em contextos de análise financeira pois permite uma melhor estabilização da variância e viabiliza uma interpretação mais precisa da estrutura latente dos dados Como resultado o ponto de inflexão que indica a quantidade ótima de 148 Capítulo 4 Metodologia agrupamentos tornouse visualmente mais nítido facilitando sua identificação e consequentemente aumentando a confiabilidade do modelo de segmentação HAN KAMBER PEI 2012 Paralelamente à análise numérica proporcionada pelo método do cotovelo recorreuse ao uso de gráficos de dispersão como técnica complementar de validação visual dos agrupamentos Essa prática é incentivada por Han Kamber e Pei 2012 que reconhecem a importância das representações gráficas como ferramentas essenciais para avaliar a coesão e a separabilidade dos clusters formados sobretudo quando o objetivo é comunicar os achados a públicos diversos incluindo gestores e tomadores de decisão não especializados em ciência de dados Os gráficos de dispersão facilitam a observação intuitiva dos padrões de distribuição mostrando como os registros se posicionam em relação às variáveis principais neste estudo Faturamento e Quantidade de Funcionários A Figura 14 apresenta o gráfico de dispersão construído com os dados de Faturamento em sua escala original Notase uma alta concentração de pontos próximos à origem do plano cartesiano o que indica que a maioria das empresas possui faturamentos relativamente baixos No entanto observase também a presença de pontos isolados e muito distantes no eixo horizontal correspondentes a empresas com faturamentos excepcionalmente elevados Essa disparidade gera uma compressão visual dos dados dificultando a identificação clara dos agrupamentos e comprometendo a análise visual da distribuição dos clientes Para contornar essa limitação e aprimorar a qualidade da visualização foi gerado um novo gráfico de dispersão com o Faturamento transformado logaritmicamente conforme orientações metodológicas de Tan Steinbach e Kumar 2019 A Figura 5 exibe os resultados dessa abordagem evidenciando uma distribuição muito mais homogênea dos dados no espaço bidimensional Com a compressão da escala os pontos passam a se posicionar de forma mais equilibrada permitindo visualizar com maior nitidez os contornos de cada cluster Essa clareza reforça a qualidade do agrupamento gerado pelo algoritmo KMeans que agora opera sobre uma base de dados menos assimétrica e mais representativa da realidade mercadológica 149 Capítulo 4 Metodologia Portanto a aplicação da transformação logarítmica tanto na análise do método do cotovelo quanto na visualização por dispersão revelouse uma estratégia metodológica eficaz para lidar com a natureza desigual dos dados financeiros empresariais A melhora na definição dos clusters não apenas contribui para a robustez da modelagem mas também facilita sua aplicação prática permitindo que os resultados gerados orientem decisões comerciais mais precisas e segmentadas Figura 15 Distribuição dos clusters considerando Faturamento original e Quantidade de Funcionários Ao analisar a Figura 15 observase uma forte concentração de pontos próximos ao valor zero no eixo de Faturamento com apenas um pequeno número de empresas posicionadas mais à direita do gráfico evidenciando valores de faturamento consideravelmente elevados Esse tipo de distribuição desigual é característico de bases de dados empresariais especialmente em contextos B2B nos quais um número reduzido de grandes contas concentra a maior parte da receita da empresa enquanto a maioria dos clientes possui faturamentos mais modestos HAN KAMBER PEI 2012 Essa assimetria severa compromete a utilidade do gráfico de dispersão original pois os dados da maior parte dos clientes ficam 150 Capítulo 4 Metodologia comprimidos em uma faixa muito estreita dificultando a distinção de perfis e a visualização de possíveis agrupamentos Para mitigar essa distorção e permitir uma análise mais clara e representativa foi aplicada uma transformação logarítmica na variável Faturamento Tal estratégia é amplamente recomendada na literatura especializada como forma eficaz de lidar com variáveis altamente assimétricas e de atenuar a influência de outliers TAN STEINBACH KUMAR 2019 A Figura 5 que apresenta o gráfico de dispersão com o Faturamento já transformado evidencia uma distribuição mais equilibrada ao longo do eixo horizontal Os pontos agora se espalham de maneira mais homogênea o que facilita não apenas a percepção visual dos clusters mas também melhora os cálculos de distância realizados pelo algoritmo KMeans resultando em agrupamentos mais coerentes e consistentes com a realidade de mercado Além dos ganhos técnicos a transformação logarítmica também contribui para a clareza da comunicação dos resultados especialmente quando apresentados a públicos não técnicos O gráfico com a escala ajustada oferece uma representação visual mais acessível e intuitiva permitindo que gestores e tomadores de decisão compreendam facilmente as justificativas adotadas nas etapas de pré processamento como defendido por Han Kamber e Pei 2012 Essa abordagem favorece a aceitação prática do modelo e fortalece sua aplicação no ambiente corporativo Portanto a comparação entre os gráficos de dispersão com o Faturamento em escala original Figura 16 e transformada Figura 5 comprova que o uso do logaritmo foi uma decisão metodológica essencial para aprimorar a qualidade da clusterização A transformação permitiu que o algoritmo detectasse padrões mais representativos da diversidade empresarial ao mesmo tempo que facilitou a visualização e interpretação dos dados Com isso os objetivos da segmentação identificar grupos de clientes mais precisos úteis e alinhados às estratégias comerciais foram alcançados com maior eficácia Figura 16 Distribuição dos clusters considerando Faturamento transformado em log e Quantidade de Funcionários 151 Capítulo 4 Metodologia A análise dos gráficos de dispersão comprova de forma clara e objetiva que a combinação do algoritmo KMeans com a transformação logarítmica da variável Faturamento constitui uma estratégia altamente eficaz para a segmentação de clientes em grupos mais homogêneos Essa abordagem equilibra a distribuição dos dados e revela padrões que seriam mascarados por valores extremos conforme ressaltam Han Kamber e Pei 2012 e Tan Steinbach e Kumar 2019 Ao suavizar as discrepâncias provocadas por grandes outliers a transformação permite ao algoritmo formar clusters mais representativos da realidade empresarial A aplicação conjunta dessas técnicas assegura que o agrupamento final reflita com maior fidelidade a diversidade dos perfis de clientes oferecendo uma leitura mais justa tanto para pequenas empresas quanto para grandes contas estratégicas Como destacam Kotler e Keller 2012 a clareza na definição dos segmentos é essencial para que as áreas comerciais e de marketing possam alinhar suas ações ao potencial de cada grupo promovendo maior eficácia nas estratégias de prospecção relacionamento e fidelização Adicionalmente a visualização gráfica dos clusters favorece a compreensão dos resultados por gestores e equipes operacionais que não possuem formação 152 Capítulo 4 Metodologia técnica tornando a segmentação uma ferramenta acessível e prática no apoio ao planejamento comercial Essa acessibilidade permite por exemplo a personalização de ofertas e a alocação mais inteligente de recursos garantindo que o esforço comercial seja concentrado nos clusters com maior potencial de receita e valor de relacionamento ao longo do tempo Dessa forma consolidase uma atuação orientada por dados alinhada à estratégia de negócios e voltada à maximização do retorno sobre os investimentos realizados KOTLER KELLER 2012 444 Simulação de métricas de negócio Para complementar a análise técnica dos clusters e estabelecer uma conexão direta e prática entre a segmentação de clientes e os indicadores estratégicos fundamentais para a gestão comercial em ambientes B2B este estudo realizou uma simulação aplicada de duas métricas amplamente reconhecidas e utilizadas no contexto corporativo o Custo de Aquisição de Clientes CAC e o Lifetime Value LTV Essas métricas são essenciais para a compreensão da eficiência dos investimentos comerciais e para a formulação de estratégias que maximizem o retorno sobre o capital aplicado conforme destacado por Kotler e Keller 2012 O Lifetime Value LTV ou valor vitalício do cliente representa o montante financeiro estimado que uma empresa pode gerar ao longo de todo o relacionamento com um cliente sendo uma métrica crucial para avaliar a lucratividade potencial de contas individuais ou segmentos específicos Considerando a ausência de dados históricos detalhados como duração exata do relacionamento ou taxas de churn optouse por uma abordagem prática e simplificada para a estimativa do LTV Neste estudo o LTV foi estimado como 120 do faturamento atual de cada cliente simulando cenários comuns e realistas do mercado B2B que envolvem renovações contratuais vendas adicionais upsell e vendas cruzadas crosssell Essa metodologia está alinhada às orientações de Stone e Woodcock 2014 que recomendam a adaptação do cálculo de LTV às características e limitações das bases de dados disponíveis É importante ressaltar que idealmente o LTV deve incorporar fatores dinâmicos como a duração do ciclo de vida do cliente frequência e recorrência de 153 Capítulo 4 Metodologia compras e comportamento de fidelização No entanto dada a restrição de dados históricos detalhados a simulação percentual adotada aqui possibilitou comparações realistas e consistentes entre os clusters formados oferecendo uma perspectiva relativa e prática sobre o valor potencial de cada grupo Por sua vez o Custo de Aquisição de Clientes CAC foi estimado com base em uma média representativa dos custos envolvidos na aquisição de cada cliente Essa média contemplou despesas típicas do contexto B2B como investimentos em marketing deslocamentos salários e comissões da equipe comercial bem como custos operacionais associados à preparação e apresentação de propostas comerciais Tal estimativa está em conformidade com a definição de Kotler e Keller 2012 que enfatizam que o CAC deve refletir o conjunto de investimentos necessários para converter um prospect em cliente efetivo especialmente em processos de vendas consultivas e complexas características marcantes do ambiente B2B Com essas duas métricas simuladas para cada cliente da base foi possível calcular as médias de LTV e CAC por cluster criando assim um panorama comparativo detalhado da rentabilidade relativa de cada segmento Essa análise comparativa é fundamental para identificar quais clusters apresentam o equilíbrio mais favorável entre o custo de aquisição e o retorno financeiro esperado subsidiando decisões estratégicas de alocação de recursos otimização do funil comercial e priorização dos esforços de marketing e vendas Stone Woodcock 2014 A Figura 17 ilustra um gráfico de dispersão que posiciona cada cluster de acordo com seus valores médios de CAC e LTV Cada ponto representa um cluster distinto permitindo uma visualização clara e imediata dos grupos mais atrativos caracterizados por um alto LTV associado a um CAC controlado e daqueles com baixo retorno financeiro combinado a custos de aquisição elevados que indicam possíveis ineficiências e desperdícios operacionais Figura 17 Relação entre CAC e LTV médios por cluster 154 Capítulo 4 Metodologia Observase na Figura 17 que determinados clusters se destacam por Observase na Figura 17 que determinados clusters se destacam por apresentar um LTV médio elevado mesmo mantendo CACs próximos ou abaixo da média geral Essa constatação valida a premissa de Kotler e Keller 2012 de que clientes de alto valor embora possam demandar investimentos iniciais maiores compensam amplamente esses custos por meio de ciclos de compra mais longos maior fidelidade e ticket médio elevado Esses clusters configuramse como contas estratégicas prioritárias que justificam a implementação de ações intensivas e personalizadas de relacionamento incluindo atendimento dedicado consultorias especializadas e propostas sob medida Em contrapartida a análise também evidenciou clusters com LTV relativamente baixo mas que apresentam CACs similares aos grupos mais rentáveis Conforme alertam Stone e Woodcock 2014 essa situação representa um risco operacional significativo a alocação de recursos comerciais em clientes de baixa rentabilidade pode gerar sobrecarga da força de vendas reduzir a eficiência operacional e comprometer o retorno global dos investimentos comerciais Tal 155 Capítulo 4 Metodologia cenário reforça a importância de diferenciar os níveis de atendimento e investimento segundo o potencial econômico real de cada cluster Essa leitura prática e visual do gráfico permite a definição de critérios objetivos para priorização e alocação de esforços comerciais Clusters com alto LTV e CAC sob controle devem ser acompanhados por executivos de contas especializados programas de fidelização e estratégias de upsell e crosssell estruturadas Já os grupos menos rentáveis demandam modelos de atendimento escaláveis automatizados e de baixo custo como canais digitais suporte remoto e propostas padronizadas garantindo cobertura comercial eficiente sem comprometer a rentabilidade Em síntese a análise conjunta de LTV e CAC não apenas valida a qualidade técnica da clusterização mas sobretudo traduz os resultados em recomendações estratégicas de aplicação imediata e prática Essa integração entre mineração de dados e gestão comercial assegura maior racionalidade e eficiência na alocação de recursos aprimora o retorno sobre investimentos e contribui diretamente para o aumento sustentável da lucratividade da base de clientes Stone Woodcock 2014 Kotler Keller 2012 156 CAPÍTULO 5 5 RESULTADOS E DISCUSSÃO 51 RESULTADOS Após o processamento completo dos dados e a aplicação do algoritmo KMeans o conjunto de clientes foi segmentado em cinco clusters bem definidos cada um caracterizado por perfis financeiros e operacionais distintos Essa segmentação permitiu revelar padrões relevantes que sustentam decisões mais estratégicas em termos de priorização de clientes personalização de ofertas estruturação de pacotes de serviços e planejamento de ações de relacionamento de longo prazo Essa abordagem está alinhada com os princípios defendidos por Stone e Woodcock 2014 que destacam a importância do uso de técnicas de agrupamento para tornar a gestão de clientes mais eficiente e personalizada O Cluster 0 emergiu como o grupo mais expressivo em termos financeiros apresentando um faturamento médio superior a R 63 bilhões e um LTV estimado em aproximadamente R 756 bilhões Notavelmente o CAC médio para conquistar ou manter clientes desse grupo foi de apenas R 307844 valor muito próximo ao dos clusters de menor retorno Esse resultado confirma a ideia de retorno elevado sobre investimento uma vez que contas estratégicas com alto potencial de receita justificam abordagens mais robustas de relacionamento e investimento consultivo KOTLER KELLER 2012 Portanto a recomendação é que o time comercial priorize esse cluster com estratégias de fidelização personalizadas atendimento dedicado e construção de relacionamentos de longo prazo Em contraposição o Cluster 1 agrega empresas com faturamento médio de R 34 milhões e LTV aproximado de R 41 milhões mas cujo CAC médio R 305060 praticamente se iguala ao do Cluster 0 Com uma média de 83 funcionários por empresa essas organizações são em geral de pequeno porte Como sugerem Kotler e Keller 2012 clientes de baixo valor devem ser atendidos com soluções automatizadas e de menor custo operacional evitando onerar o processo comercial com abordagens consultivas não rentáveis 157 Resultados e Discussão De forma semelhante o Cluster 2 também apresenta faturamento médio de R 338 milhões e LTV de cerca de R 406 milhões com um CAC de R 288247 No entanto distinguese pelo maior porte médio das empresas com aproximadamente 284 funcionários Esse perfil indica operações mais estruturadas porém com margens potencialmente mais estreitas Para esse tipo de segmento Stone e Woodcock 2014 recomendam a adoção de estratégias escaláveis como vendas em massa propostas automatizadas e menor envolvimento da equipe de campo maximizando a eficiência operacional O Cluster 3 por sua vez apresenta um perfil intermediário entre valor e estrutura As empresas desse grupo possuem um faturamento médio de R 156 milhões com LTV estimado de R 187 milhões além de um CAC de R 281356 o mais baixo entre todos os clusters A média de 1082 funcionários sugere uma base com alto grau de maturidade operacional Essa combinação reforça a hipótese de que clientes com processos internos mais robustos tendem a ter maior permanência e recorrência o que justifica investimentos em programas de crosssell e suporte contínuo KOTLER KELLER 2012 Já o Cluster 4 apresenta um perfil médio com faturamento de R 196 milhões LTV de R 235 milhões e CAC de R 305990 Com uma estrutura organizacional mais enxuta 203 funcionários em média esse grupo demonstra potencial para a adoção de pacotes modulares e escaláveis permitindo adequação das soluções ofertadas conforme o crescimento ou sazonalidade do cliente o que pode maximizar margem e flexibilidade comercial STONE WOODCOCK 2014 A comparação entre os clusters permite destacar um princípio estratégico essencial os grupos que combinam alto LTV com CAC controlado devem ser priorizados nas ações comerciais e nos investimentos de relacionamento pois apresentam o maior retorno por esforço investido Em contrapartida clusters de baixo LTV com CAC semelhante aos demais exigem atenção pois tendem a representar menor rentabilidade e portanto devem ser atendidos com modelos mais automatizados e enxutos KOTLER KELLER 2012 Além disso conforme verificado na matriz de correlação apresentada anteriormente não há relação direta entre a quantidade de funcionários e o faturamento das empresas reforçando a importância de considerar múltiplos 158 Resultados e Discussão critérios na segmentação A simples análise de uma variável isolada pode gerar interpretações equivocadas enquanto a análise combinada permite identificar padrões mais representativos da realidade dos clientes Por fim para facilitar o entendimento por parte dos gestores e permitir uma visão mais prática e orientada à tomada de decisão recomendase a construção de um quadro resumo com as médias de Faturamento LTV CAC e Funcionários por cluster Essa síntese gráfica pode servir como base objetiva para definir prioridades comerciais desenvolver planos de ação e otimizar os recursos destinados a cada perfil de cliente Tabela 1 Resumo dos clusters com métricas médias de negócio Cluster Faturamento Médio R LTV Médio R CAC Médio R Funcionários Médios 0 6300000000 7560000000 307844 233 1 34000000 41000000 305060 83 2 33800000 40600000 288247 284 3 156000000 187000000 281356 1082 4 196000000 235000000 305990 203 Em síntese os resultados obtidos demonstram que a segmentação proposta além de agrupar tecnicamente os clientes com base em critérios relevantes proporciona insights acionáveis e altamente úteis para a gestão comercial da empresa A análise dos clusters permite uma compreensão aprofundada dos diferentes perfis da carteira subsidiando decisões como a priorização de atendimento a personalização de pacotes de serviços a alocação mais racional dos recursos comerciais e a otimização dos investimentos em aquisição de novos clientes Esse alinhamento entre análise de dados e aplicação prática é essencial para garantir que as estratégias de marketing e vendas resultem em retorno financeiro efetivo Kotler e Keller 2012 ressaltam que o sucesso na gestão de clientes 159 Resultados e Discussão depende justamente da capacidade de transformar dados em ações concretas de relacionamento e retenção indo além da simples análise descritiva Além disso conforme reforçado por Stone e Woodcock 2014 a utilização de técnicas de clusterização aliada a métricas estratégicas de negócio como o CAC e o LTV representa uma das abordagens mais eficazes para assegurar que a segmentação contribua diretamente para o aumento da lucratividade da empresa Ao identificar grupos de alto valor com custos controlados de aquisição a organização pode direcionar seus esforços de forma mais inteligente promovendo a fidelização das contas mais relevantes e assegurando um crescimento sustentável da base de clientes 511 Discussão Estratégica dos Clusters A segmentação realizada por meio do algoritmo KMeans possibilitou a identificação de cinco clusters distintos cada um com características financeiras operacionais e estratégicas específicas que demandam abordagens personalizadas para otimização de recursos retenção de clientes e potencial crescimento A análise aprofundada desses grupos traz insights valiosos para a formulação de estratégias comerciais mais eficazes Cluster 0 Clientes Premium Alto Faturamento e Alto LTV Faturamento Médio R 63 bilhões LTV Médio R 756 bilhões CAC Médio R 307844 Funcionários Médios 233 Este cluster representa a base mais valiosa com elevado retorno sobre investimento ROI O CAC similar ao dos demais grupos aliado a um LTV significativamente maior evidencia a eficiência na aquisição e retenção desses clientes Recomendase atendimento consultivo personalizado por meio de equipes dedicadas Key Account Management além da implementação de programas exclusivos de fidelização que incluam benefícios como acesso antecipado a 160 Resultados e Discussão produtos e suporte prioritário Estratégias de upselling e crossselling também são altamente recomendadas para explorar o potencial financeiro deste grupo Clusters 1 e 2 Pequenas e Médias Empresas PMEs com Baixo LTV e CAC Similar Cluster 1 Faturamento R 34 milhões LTV R 41 milhões CAC R 305060 Funcionários 83 Cluster 2 Faturamento R 338 milhões LTV R 406 milhões CAC R 288247 Funcionários 284 Apesar de apresentarem CAC próximo ao Cluster 0 o LTV inferior indica menor rentabilidade A principal distinção está no porte operacional sendo o Cluster 1 composto por empresas menores e o Cluster 2 por organizações com estruturas mais complexas Estratégias para estes grupos devem focar na automação do atendimento com uso de chatbots e portais de autoatendimento para reduzir custos além da oferta de pacotes de serviços padronizados e escaláveis Canais digitais e telemarketing são recomendados para ampliar as vendas em massa diminuindo a dependência de abordagens presenciais Cluster 3 Empresas de Médio Porte com Alto Potencial de Retenção Faturamento R 156 milhões LTV R 187 milhões CAC R 281356 o mais baixo Funcionários 1082 Este grupo apresenta o melhor equilíbrio entre LTV e CAC refletindo elevada eficiência na retenção Empresas maduras com maior número de funcionários e processos consolidados compõem este cluster Recomendase a implementação de programas contínuos de crossselling suporte proativo com checkins regulares e estabelecimento de parcerias estratégicas de longo prazo para fortalecer a fidelidade Cluster 4 Empresas com Estrutura Enxuta e Potencial de Crescimento Faturamento R 196 milhões LTV R 235 milhões 161 Resultados e Discussão CAC R 305990 Funcionários 203 Apesar de um faturamento superior ao Cluster 3 estas empresas apresentam estruturas mais enxutas indicando eficiência operacional O CAC mais elevado pode demandar maior esforço comercial porém compensado pelo LTV Estratégias recomendadas incluem a oferta de soluções modulares e flexíveis atenção ao crescimento orgânico dos clientes e programas de fidelização baseados em incentivos vinculados ao volume de compras Esta análise evidencia a necessidade de Priorização dos investimentos em Clientes Premium Cluster 0 e no Cluster 3 que apresentam maior eficiência e potencial de retorno Redução de custos e automação para os clusters com menor LTV 1 e 2 Expansão de receita por meio de upselling nos Clusters 0 e 3 e cross selling nos Clusters 3 e 4 A gestão comercial poderá se beneficiar da implementação de dashboards para acompanhamento contínuo da evolução desses segmentos além do teste e refinamento de estratégias específicas para cada cluster garantindo maior assertividade e sustentabilidade no relacionamento com os clientes 52 DISCUSSÃO A presente análise reforça de maneira consistente a eficácia da segmentação de clientes por meio de técnicas avançadas de clusterização destacando seu papel estratégico na otimização da gestão comercial em ambientes B2B Mercados corporativos marcados por ciclos de venda extensos elevado custo de aquisição de clientes CAC e alta competitividade exigem uma abordagem analítica sofisticada que permita a identificação clara dos diferentes perfis de clientes para assim maximizar o retorno sobre investimento ROI Como ressaltado por Kotler e Keller 162 Resultados e Discussão 2012 o sucesso em tais mercados depende da capacidade de alocar recursos com precisão priorizando clientes que apresentem maior potencial de rentabilidade e valor ao longo do tempo A segmentação realizada neste estudo resultou na definição de cinco clusters distintos que não apenas categorizam a base de clientes mas também revelam padrões complexos e multifacetados de comportamento valor econômico e potencial de crescimento Estes insights possibilitam a formulação de estratégias comerciais altamente direcionadas baseadas na priorização inteligente de clientes personalização de ofertas e otimização dos custos de atendimento e aquisição O Cluster 0 identificado como o grupo estratégico mais valioso apresenta um Lifetime Value LTV médio aproximadamente 184 vezes superior ao seu CAC o que demonstra uma eficiência excepcional na geração de valor Tal relação justifica a adoção de modelos de atendimento consultivo altamente personalizados e dedicados apoiados por programas exclusivos de fidelização e benefícios premium uma prática que converte o investimento em atendimento em vantagem competitiva sustentável conforme argumentado por Stone e Woodcock 2014 Para esse grupo a retenção e o desenvolvimento de relacionamento devem ser tratados como prioridades absolutas visto o seu impacto significativo na receita e lucratividade da empresa Em contrapartida os Clusters 1 e 2 compostos predominantemente por pequenas e médias empresas PMEs embora apresentem CAC comparável ao Cluster 0 exibem LTV substancialmente inferior evidenciando menor rentabilidade e consequentemente uma margem operacional mais estreita Essa realidade demanda a adoção de soluções escaláveis e economicamente viáveis como a automação de processos de vendas e atendimento digitalizado que reduzam os custos operacionais e permitam o atendimento eficiente sem comprometer a experiência do cliente Essa recomendação está alinhada às melhores práticas destacadas por Kotler e Keller 2012 que enfatizam a importância de modelos de atendimento segmentados e tecnológicos para segmentos menos rentáveis Além disso o Cluster 3 caracterizado por empresas de médio porte demonstra um equilíbrio eficiente entre LTV e CAC sugerindo alta eficácia nas práticas de retenção e potencial significativo para expansão via estratégias de cross 163 Resultados e Discussão selling e upselling Empresas deste cluster costumam possuir estruturas organizacionais mais maduras com processos consolidados o que facilita a implementação de programas contínuos de suporte proativo e parcerias estratégicas de longo prazo fomentando a fidelização e a ampliação da receita O Cluster 4 formado por empresas com estruturas enxutas apresenta elevado faturamento e LTV mas com um CAC ligeiramente superior o que indica uma necessidade maior de esforços comerciais personalizados Para esse segmento recomendase a oferta de soluções modulares e flexíveis que possam ser ajustadas conforme as necessidades sazonais e estratégias de crescimento orgânico apoiadas por incentivos de fidelização baseados em volume de compras e recompensas Importante destacar que a clusterização deve ser encarada como um processo dinâmico e adaptativo que precisa acompanhar as transformações do mercado as mudanças no comportamento dos clientes e o contexto econômico Han Kamber e Pei 2012 enfatizam que a segmentação deve ser recalibrada periodicamente especialmente diante de eventos disruptivos como crises econômicas mudanças regulatórias ou avanços tecnológicos que alterem as relações comerciais A introdução de métricas simuladas como LTV e CAC neste estudo possibilitou uma análise aproximada da realidade mas a incorporação de dados em tempo real incluindo frequência de compras inadimplência e indicadores comportamentais ampliaria significativamente a precisão e a aplicabilidade das estratégias resultantes Para operacionalizar essa visão dinâmica recomendase a implementação de dashboards interativos capazes de oferecer monitoramento contínuo da evolução dos clusters bem como sistemas de alertas automáticos que sinalizem movimentações e alterações nos perfis dos clientes Revisões periódicas do modelo realizadas com base em análises trimestrais garantirão a manutenção da relevância e eficiência das ações comerciais e estratégicas A metodologia aplicada embora centrada no setor de cobrança possui alta capacidade de replicação para diversos segmentos B2B como o setor tecnológico segmentação de clientes SaaS por ticket médio churn rate e engajamento indústria baseada em volume de compras sazonalidade e ciclo produtivo e 164 Resultados e Discussão serviços especializados segmentação por porte complexidade e demanda O sucesso na adaptação do modelo depende da seleção criteriosa de variáveis que representem fielmente o comportamento e o valor do cliente em cada contexto setorial conforme sugerido por Stone e Woodcock 2014 Reconhecese porém que este estudo apresenta algumas limitações que devem ser abordadas em trabalhos futuros tais como a utilização de dados simulados para CAC e LTV o que pode comprometer a precisão dos resultados e a ausência de variáveis comportamentais e qualitativas como indicadores de satisfação e Net Promoter Score NPS Pesquisas futuras devem priorizar a coleta de dados reais a inclusão de métricas qualitativas e o uso de algoritmos alternativos para segmentação como DBSCAN e Random Forest visando aprimorar a robustez e a aplicabilidade prática dos modelos Em síntese a segmentação por clusterização quando integrada a indicadores financeiros e operacionais consolidase como ferramenta fundamental para Otimizar a alocação de recursos comerciais direcionando investimentos para clientes de maior valor Personalizar estratégias de vendas e fidelização aumentando o engajamento e a satisfação do cliente Antecipar tendências e ajustar o modelo de negócios de forma ágil e proativa Ao transformar dados analíticos em decisões estratégicas as empresas ampliam sua rentabilidade e constroem relacionamentos sólidos e duradouros assegurando sustentabilidade e vantagem competitiva em mercados cada vez mais desafiadores Os próximos passos práticos recomendados incluem Implementação de sistemas de monitoramento em tempo real para acompanhamento contínuo dos clusters Desenvolvimento de planos de ação específicos e customizados para cada segmento identificado Condução de experimentos controlados testes AB para validar e aprimorar estratégias comerciais 165 Resultados e Discussão Essa abordagem alinhada às melhores práticas de Customer Relationship Management CRM e inteligência analítica posiciona a organização em um patamar elevado de gestão inteligente da base de clientes potencializando a eficiência operacional a lucratividade e o crescimento sustentável no longo prazo 166 CONCLUSÃO Este trabalho teve como objetivo central demonstrar de forma prática aplicada e fundamentada como a clusterização de clientes pode se consolidar como uma ferramenta robusta e estratégica para aprimorar a gestão comercial de empresas B2B Alinhado às recomendações clássicas de Kotler e Keller 2012 que enfatizam a segmentação como alicerce para estratégias de marketing direcionadas e eficazes o estudo estruturou a segmentação utilizando variáveis de fácil obtenção e mensuração tais como Faturamento e Quantidade de Funcionários enriquecidas por métricas simuladas de elevada relevância gerencial como o Lifetime Value LTV e o Custo de Aquisição de Clientes CAC conforme preconizado por Stone e Woodcock 2014 A metodologia adotada seguiu um fluxo rigoroso e sistemático que compreendeu desde a seleção criteriosa e limpeza da base de dados passando pela transformação e padronização das variáveis até a aplicação da análise estatística e a implementação do algoritmo KMeans Para garantir a robustez da segmentação foram utilizados métodos reconhecidos para validação da qualidade dos clusters como o método do cotovelo e o coeficiente de Silhouette conforme os parâmetros sugeridos por Han Kamber e Pei 2012 Esse processo permitiu a identificação de cinco clusters consistentes e coerentes evidenciando diferenças claras e relevantes entre os grupos em termos de receita potencial estrutura operacional e esforço requerido para aquisição e retenção de clientes Um dos principais achados da análise foi a constatação de que o número de funcionários isoladamente não se configura como um preditor confiável do faturamento Tal descoberta reforça a necessidade imperativa de empregar múltiplos critérios e variáveis integradas na construção de segmentações mais precisas e representativas conforme discutido por Tan Steinbach e Kumar 2019 Este insight destaca o valor de abordagens multidimensionais na mineração de dados que considerem tanto aspectos quantitativos quanto qualitativos para aprimorar a acurácia dos modelos e sua aplicabilidade prática Adicionalmente a análise demonstrou que mesmo com um conjunto relativamente reduzido e acessível de variáveis é plenamente possível empregar técnicas de mineração de dados acessíveis para gerar insights práticos relevantes e 167 acionáveis para a tomada de decisão estratégica Stone e Woodcock 2014 reforçam 168 Conclusão que a diferenciação da abordagem comercial deve levar em conta o retorno financeiro esperado de cada segmento clusters com alto LTV demandam estratégias de relacionamento consultivo e customizado enquanto grupos com baixo retorno relativo precisam ser tratados com modelos automatizados e de baixo custo garantindo a preservação da rentabilidade e evitando gastos excessivos Outro diferencial relevante da pesquisa foi a incorporação da variável simulada de Desempenho do Cliente que amplia significativamente o potencial evolutivo do modelo em ambientes reais e dinâmicos de Customer Relationship Management CRM Essa variável abre caminho para a inclusão futura de indicadores mais ricos e dinâmicos tais como engajamento churn satisfação do cliente e ciclo de vida fortalecendo o alinhamento do modelo às necessidades de adaptação contínua e responsiva das estratégias de relacionamento conforme orientado por Kotler e Keller 2012 Recomendase portanto a implementação de dashboards interativos e painéis automatizados para o monitoramento em tempo real da evolução dos clusters bem como ciclos periódicos de recalibração e atualização da segmentação a fim de capturar as mudanças comportamentais e perfis emergentes ao longo do tempo Han Kamber Pei 2012 A versatilidade e a escalabilidade da abordagem metodológica também se destacam como pontos fortes deste estudo Embora a aplicação tenha sido realizada em uma base específica do setor de cobrança a estrutura proposta é amplamente replicável e adaptável a diversos segmentos B2B incluindo setores como tecnologia consultorias especializadas e indústrias desde que haja a adequada seleção e ajuste das variáveis de entrada em consonância com a natureza do públicoalvo e os objetivos estratégicos de cada negócio Stone Woodcock 2014 Em conclusão a clusterização desenvolvida e aplicada nesta dissertação apresenta uma metodologia prática replicável e flexível capaz de entregar resultados expressivos em termos de direcionamento estratégico e operacional Ao possibilitar a identificação precisa das contas de maior potencial a redução dos custos de aquisição o aumento do LTV médio e a otimização do funil de vendas o modelo contribui não apenas para ganhos imediatos em eficiência e lucratividade mas também para a construção de uma estratégia de crescimento sustentável pautada na inteligência de dados e nas melhores práticas do marketing B2B Kotler Keller 2012 Tan Steinbach Kumar 2019 169 Conclusão Os resultados obtidos fortalecem tanto a contribuição teórica quanto a aplicabilidade prática do estudo fornecendo às organizações um guia realista orientado por dados para a tomada de decisões mais eficazes competitivas e alinhadas ao cenário corporativo atual cada vez mais orientado por análises preditivas e modelos inteligentes de gestão comercial 170 REFERÊNCIAS BIBLIOGRÁFICAS AFINITI V P A new approach to proportional hazards modeling for estimating customer lifetime value 2022 BARAN R J GALKA R J STRUNK D P CRM the foundations of contemporary marketing strategy Londres Routledge 2013 BAUER J JANNACH D Improved customer lifetime value prediction with sequencetosequence learning and featurebased models ACM Transactions on Knowledge Discovery from Data v 15 n 5 2021 BERGER P D NASR N I Customer lifetime value marketing models and applications Journal of Interactive Marketing v 12 n 1 p 1730 Winter 1998 BREIMAN L Random forests Machine Learning Dordrecht Springer 2001 BURELLI P Predicting customer lifetime value in freetoplay games 2019 CAO Y RUSMEVICHIENTONG P TOPALOGLU H Revenue management under a mixture of independent demand and multinomial logit models Operations Research v 71 n 2 p 603625 2023 CHENG H CHEN Y Classification of the risk levels of heart disease using a hybrid data mining approach In Proceedings of the International Multiconference of Engineers and Computer Scientists v 1 2009 CUMPS B et al Inferring comprehensible business ICT alignment rules Information Management v 46 n 2 p 116124 2009 DOI 101016jim200805005 DAHANA W D MIWA Y MORISADA M Linking lifestyle to customer lifetime value an exploratory study in an online fashion retail market Journal of Business Research v 99 p 319331 2019 DO C B BATZOGLOU S What is the expectation maximization algorithm Nature Biotechnology v 26 n 8 p 897899 2008 DOMINGOS P The master algorithm Basic Books 2015 EKSTRAND M D RIEDL J T KONSTAN J A Collaborative filtering recommender systems Foundations and Trends in HumanComputer Interaction v 4 n 2 p 81173 2010 ESTER M et al A densitybased algorithm for discovering clusters in large spatial databases with noise In Proceedings of the Second International Conference on Knowledge Discovery and Data Mining Portland AAAI Press 1996 p 226231 FARRIS P W et al Marketing metrics the definitive guide to measuring marketing performance Londres Pearson 2020 171 FAYYAD U PIATETSKYSHAPIRO G SMYTH P From data mining to knowledge discovery in databases AI Magazine v 17 n 3 p 3754 1996 FIELD A MILES J FIELD Z Discovering statistics using R 2 ed London Sage 2017 HAIR J F et al Multivariate data analysis 7 ed Upper Saddle River NJ Prentice Hall 2009 HAN J KAMBER M PEI J Data mining concepts and techniques 3 ed Waltham Morgan Kaufmann 2011 HARRIS C R et al Array programming with NumPy Nature v 585 n 7825 p 357362 2020 HÖPPNER S et al Profit driven decision trees for churn prediction European Journal of Operational Research 2018 Disponível em httpswwwelseviercomlocateejor Acesso em 21 jul 2024 HUANG M RUST R T Engaged to a robot The role of AI in service Journal of Service Research v 23 p 97113 2020 HUNTER J D Matplotlib a 2D graphics environment Computing in Science Engineering v 9 n 3 p 9095 2007 JASEK P et al Comparative analysis of selected probabilistic customer lifetime value models in online shopping Journal of Business Economics and Management v 20 n 3 p 398423 2019 KABACOFF R R in action data analysis and graphics with R 3 ed Shelter Island Manning 2021 KANCHANAPOOM K CHONGWATPOL J Integrated customer lifetime value CLV and customer migration model to improve customer segmentation Journal of Marketing Analytics 2022 Disponível em httpslinkspringercomarticle101057s41270022001587 Acesso em 22 jan 2024 KANCHANAPOOM K CHONGWATPOL J Integrated customer lifetime value models to support marketing decisions in the complementary and alternative medicine industry Benchmarking 2023 KELLER K L Strategic brand management building measuring and managing brand equity Londres Pearson 2014 KOTLER P KELLER K L Administração de marketing 12 ed São Paulo Pearson Prentice Hall 2006 KRISHNAMURTHY R DESHPANDE P Data visualization with Python 2 ed Birmingham Packt 2022 172 KUMAR A et al Customer lifetime value prediction using machine learning to forecast CLV and enhance customer relationship management In 7th International Symposium on Multidisciplinary Studies and Innovative Technologies ISMSIT IEEE 2023 KUMAR V Managing customers for profit strategies to increase profits and build loyalty Philadelphia Wharton School Publishing 2018 KUMAR V DIXIT A JAVALGI R G DASS M Relationship marketing in the digital age concepts practices and perspectives Journal of Marketing Management v 36 p 216244 2020 LAROCHELLE H et al Interpretable machine learning decision trees and beyond MIT Press 2022 LI K et al Billionuser customer lifetime value prediction an industrialscale solution from Kuaishou In Proceedings of the International Conference on Information and Knowledge Management Association for Computing Machinery 2022 p 3243 3251 LUNDBERG S M LEE SI A unified approach to interpreting model predictions NeurIPS 2020 MALHOTRA N K Marketing research an applied orientation 5 ed Upper Saddle River NJ Pearson Prentice Hall 2006 MATPLOTLIB Documentação oficial do Matplotlib Disponível em httpsmatplotliborg Acesso em 16 jul 2024 MCDONALD M DUNBAR I Market segmentation how to do it and how to profit from it John Wiley Sons 2012 MCKINNEY W Python for data analysis 3 ed OReilly 2022 MCKINNEY W Data structures for statistical computing in Python In Proceedings of the 9th Python in Science Conference 2010 MINTZBERG H AHLSTRAND B LAMPEL J Safari de estratégia um roteiro pela selva do planejamento estratégico 2 ed Porto Alegre Bookman 2010 MISSINGNO Repositório oficial do Missingno no GitHub Disponível em httpsgithubcomResidentMariomissingno Acesso em 16 jul 2024 MOLNAR C Interpretable machine learning 2 ed 2022 Disponível em httpschristophmgithubiointerpretablemlbook NATIONAL ACADEMIES OF SCIENCES Data science for undergraduates consensus study report Washington The National Academies Press 2021 173 NIJKAMP P Multivariate analysis in practice the application of statistical methods Berlin SpringerVerlag 1999 NUMPY Documentação oficial do NumPy Disponível em httpsnumpyorg Acesso em 16 jul 2024 OLIVEIRA D P R Planejamento estratégico conceitos metodologia e práticas 34 ed São Paulo Atlas 2018 OLNÉN J Customer lifetime value maximizing profitability through customer loyalty Business Insights Press 2022 PAGANO M GAUVREAU K Principles of biostatistics 2 ed Boca Raton CRC Press 2018 PANDAS Documentação oficial do Pandas Disponível em httpspandaspydataorg Acesso em 16 jul 2024 PAYNE A FROW P Strategic customer management integrating relationship marketing and CRM Cambridge Cambridge University Press 2017 PEDREGOSA F et al Scikitlearn machine learning in Python Journal of Machine Learning Research v 12 p 28252830 2011 POLLAK Z Predicting customer lifetime value ecommerce use case 2021 POLLAK Z Deep learning applications in customer lifetime value prediction Data Science Journal v 20 2021 QUINLAN J R Induction of decision trees Machine Learning v 1 n 1 p 81106 1986 REZAEINIA S M RAHMANI R Recommender system based on customer segmentation RSCS Kybernetes v 45 n 6 p 946961 2016 RIEDL J KONSTAN J A HumanComputer Interaction Handbook fundamentals evolving technologies and emerging applications In JACKO J A ed 3 ed Boca Raton CRC Press 2011 RUMELHART D E HINTON G E WILLIAMS R J Learning representations by backpropagating errors Nature v 323 n 6088 p 533536 1986 RUST R T LEMON K N ZEITHAML V A Return on marketing using customer equity to focus marketing strategy Journal of Marketing v 68 n 1 p 109127 2004 SCIKITLEARN Documentação oficial do Scikitlearn Disponível em httpsscikit learnorgstable Acesso em 16 jul 2024 174 SEABORN Documentação oficial do Seaborn Disponível em httpsseabornpydataorg Acesso em 16 jul 2024 STONE M et al SCHEMA information on marketing and customer engagement performance reality versus dreams The Bottom Line 2019 Accepted DOI 101108BL0220190065 SU H et al Crossdomain adaptative learning for online advertisement customer lifetime value prediction 2023 TAN P N STEINBACH M KUMAR V Introduction to data mining 2 ed Harlow Pearson 2019 THOMAS R J Multistage market segmentation an exploration of B2B segment alignment Journal of Business and Industrial Marketing v 31 n 7 p 821834 2016 THOMPSON B Exploratory and confirmatory factor analysis understanding concepts and applications Washington DC American Psychological Association 2004 TIMES HIGHER EDUCATION World university rankings 2023 data science and analytics 2023 Disponível em httpswwwtimeshighereducationcom VANDERPLAS J Python data science handbook essential tools for working with data 1 ed Sebastopol OReilly Media 2016 VERBEKE W MARTENS D BAESENS B Building comprehensible customer churn prediction models with advanced rule induction techniques Expert Systems with Applications v 38 n 3 p 23542364 2011 VERHOEVEN D PESCH T CAO Y Utilizing genetic algorithms for revenue management optimization Journal of Revenue and Pricing Management v 22 n 3 p 245265 2023 WANG X LIU T MIAO J A deep probabilistic model for customer lifetime value prediction 2019 Disponível em httparxivorgabs191207753 WASKOM M et al Missingno a missing data visualization suite 2020 Disponível em httpsgithubcomResidentMariomissingno WASKOM M L et al Seaborn statistical data visualization Journal of Open Source Software v 5 n 51 p 3021 2020 DOI 1021105joss03021 WASSERMAN L All of statistics a concise course in statistical inference 2 ed New York Springer 2020 WICKHAM H GROLEMUND G R for data science Sebastopol OReilly 2017 175 WIN T T BO K S Predicting customer class using customer lifetime value with random forest algorithm In International Conference on Advanced Information Technologies ICAIT IEEE 2020 p 236241 WU C et al Contrastive multiview framework for customer lifetime value prediction Proceedings of the ACM Web Conference p 24002408 2023 XIE Y et al Customer churn prediction using improved balanced random forests Expert Systems with Applications v 120 p 239250 2019 DOI 101016jeswa201811030 ZHANG Z ZHAO Y HUZHANG G Exploit customer lifetime value with memoryless experiments 2022 Disponível em httparxivorgabs220106254 ZUUR A F IENO E N ELPHICK C S A protocol for data exploration to avoid common statistical problems Methods in Ecology and Evolution v 10 n 1 p 170 181 2019 176 ANEXOS pip install pandas numpy matplotlib seaborn scikitlearn Requirement already satisfied pandas in usrlocallibpython311distpackages 222 Requirement already satisfied numpy in usrlocallibpython311distpackages 202 Requirement already satisfied matplotlib in usrlocallibpython311distpackages 3100 Requirement already satisfied seaborn in usrlocallibpython311distpackages 0132 Requirement already satisfied scikitlearn in usrlocallibpython311distpackages 161 Requirement already satisfied pythondateutil282 in usrlocallibpython311distpackages from pandas 290post0 Requirement already satisfied pytz20201 in usrlocallibpython311distpackages from pandas 20252 Requirement already satisfied tzdata20227 in usrlocallibpython311distpackages from pandas 20252 Requirement already satisfied contourpy101 in usrlocallibpython311distpackages from matplotlib 132 Requirement already satisfied cycler010 in usrlocallibpython311distpackages from matplotlib 0121 Requirement already satisfied fonttools4220 in usrlocallibpython311distpackages from matplotlib 4582 Requirement already satisfied kiwisolver131 in usrlocallibpython311distpackages from matplotlib 148 Requirement already satisfied packaging200 in usrlocallibpython311distpackages from matplotlib 242 Requirement already satisfied pillow8 in usrlocallibpython311distpackages from matplotlib 1121 Requirement already satisfied pyparsing231 in usrlocallibpython311distpackages from matplotlib 323 Requirement already satisfied scipy160 in usrlocallibpython311distpackages from scikitlearn 1153 Requirement already satisfied joblib120 in usrlocallibpython311distpackages from scikitlearn 151 Requirement already satisfied threadpoolctl310 in usrlocallibpython311distpackages from scikitlearn 360 Requirement already satisfied six15 in usrlocallibpython311distpackages from pythondateutil282pandas 1170 import pandas as pd import numpy as np import matplotlibpyplot as plt import seaborn as sns from sklearncluster import KMeans from sklearnpreprocessing import StandardScaler from sklearnmetrics import silhouettescore filepaths contentBaseListaLeads55Mvs2xlsx contentcluster0csv contentbaseleadsxlsx contentbaseleadsokxlsx Dicionário para guardar os DataFrames dataframes for path in filepaths if pathendswithxlsx df pdreadexcelpath elif pathendswithcsv df pdreadcsvpath sep tenta sep pois deu erro com else continue dataframespathsplit1 df Verificar quais foram carregados printfArquivos carregados listdataframeskeys Arquivos carregados BaseListaLeads55Mvs2xlsx cluster0csv baseleadsxlsx baseleadsokxlsx Ver resumo de cada DataFrame for name df in dataframesitems printf name printdfinfo printdfhead3 print BaseListaLeads55Mvs2xlsx class pandascoreframeDataFrame RangeIndex 55039 entries 0 to 55038 Data columns total 42 columns Column NonNull Count Dtype 0 55038 55039 nonnull object 1 Unnamed 1 55039 nonnull object 2 Unnamed 2 55039 nonnull object 3 Unnamed 3 55039 nonnull object 4 Unnamed 4 55039 nonnull object 5 Unnamed 5 55039 nonnull object 6 Unnamed 6 55039 nonnull object 7 Unnamed 7 55039 nonnull object 8 R Recorrência 55039 nonnull object 9 Unnamed 9 55039 nonnull object 10 Unnamed 10 55039 nonnull object 11 Unnamed 11 55039 nonnull object 12 Unnamed 12 55039 nonnull object 13 Unnamed 13 55039 nonnull object 14 Unnamed 14 55039 nonnull object 15 Unnamed 15 55039 nonnull object 16 Unnamed 16 55039 nonnull object 17 Unnamed 17 55039 nonnull object 18 Unnamed 18 55039 nonnull object 19 Unnamed 19 55039 nonnull object 20 Unnamed 20 54509 nonnull object 21 Unnamed 21 55039 nonnull object 22 17027 55039 nonnull object 23 3186 55039 nonnull object 24 14310 55039 nonnull object 25 6082 55039 nonnull object 26 Unnamed 26 55039 nonnull object 27 Unnamed 27 55010 nonnull object 28 Unnamed 28 55039 nonnull object 29 Unnamed 29 55039 nonnull object 30 Unnamed 30 55039 nonnull object 31 Unnamed 31 55039 nonnull object 32 Unnamed 32 55039 nonnull object 33 Unnamed 33 55039 nonnull object 34 Unnamed 34 55039 nonnull object 35 Unnamed 35 55033 nonnull object 36 Unnamed 36 55033 nonnull object 37 Unnamed 37 54859 nonnull object 38 Unnamed 38 55039 nonnull object 39 Unnamed 39 9272 nonnull object 40 Unnamed 40 11969 nonnull object 41 Unnamed 41 55039 nonnull object dtypes object42 memory usage 176 MB None 55038 Unnamed 1 Unnamed 2 0 CodEmp CodCNAE CNAEs 1 100000166 4110700 4110700 Incorporação de empreendimentos imob 2 100000172 7112000 7112000 Serviços de engenharia Unnamed 3 Unnamed 4 Unnamed 5 Unnamed 6 0 SegmentoCO SegmentoGL SubsegGL CodGr 1 ENGENHARIACONSTRUÇÃO CONSTRUCAO E PROJETOS INCORPORADORA 0 2 SERVIÇOS SERVICOS ENGENHARIA 0 Unnamed 7 R Recorrência Unnamed 9 0 StatusGr M1 M2 1 0 0 0 2 0 0 0 Unnamed 32 Unnamed 33 0 CNAEs Secundários Cidade 1 41204005223100646200068102036822600 Brasília 2 8020001771100077390997020400731900462023 Sao Bernardo Do Campo Unnamed 34 Unnamed 35 Unnamed 36 Unnamed 37 0 Estado Microrregião Mesoregião QuantFuncionarios 1 DF Brasília Distrito Federal 117 2 SP São Paulo Metropolitana de São Paulo 50 Unnamed 38 Unnamed 39 Unnamed 40 Unnamed 41 0 Natureza Jurídica Exportador Importador 1 1 NaN NaN 2 1 NaN NaN 3 rows x 42 columns cluster0csv class pandascoreframeDataFrame RangeIndex 2799 entries 0 to 2798 Data columns total 25 columns Column NonNull Count Dtype 0 CodEmp 2799 nonnull int64 1 CodCNAE 2799 nonnull int64 2 CNAEs 2799 nonnull object 3 SegmentoCO 2766 nonnull object 4 SegmentoGL 2766 nonnull object 5 SubsegGL 2766 nonnull object 6 CodGr 2766 nonnull float64 7 StatusGr 2766 nonnull object 8 PDPrior 2766 nonnull object 9 FatPres 2766 nonnull float64 10 TitDevs 2766 nonnull float64 11 Porte 2766 nonnull object 12 Situação 2766 nonnull object 13 NíveIAtiv 2766 nonnull object 14 RiscoInad 2766 nonnull object 15 CNAEs Secundários 2766 nonnull object 16 Cidade 2766 nonnull object 17 Estado 2766 nonnull object 18 Microregião 2766 nonnull object 19 Mesoregião 2766 nonnull object 20 QuantFuncionarios 2766 nonnull float64 21 Natureza Jurídica 2766 nonnull float64 22 Exportador 2766 nonnull object 23 Importador 2766 nonnull object 24 cluster 2766 nonnull float64 dtypes float646 int642 object17 memory usage 5468 KB None CNAEs CodEmp CodCNAE 0 100020648 5911199 5911199 Atividades de produção cinematográfi 1 100022630 5920100 5920100 Atividades de gravação de som e de e 2 100060378 4930202 4930202 Transporte rodoviário de carga exce SegmentoCO SegmentoGL SubsegGL CodGr StatusGr PDPrior 0 COMUNICAÇÃO SERVICOS COMUNICACAO 00 0 SI 1 COMUNICAÇÃO SERVICOS COMUNICACAO 00 0 SI 2 LOGISTICATRANSPORTE LOGISTICA TRANSPORTADOR 00 0 SI FatPres CNAEs Secundários 0 224000000 591110259138005920100 1 121250000 464940759111997311400 2 172300000 773909946630007820500773220149230024330404 Cidade Estado Microregião 0 Sao Paulo SP São Paulo 1 Sao Paulo SP São Paulo 2 Sao Joao Da Barra RJ Campos dos Goytacazes Mesoregião QuantFuncionarios Natureza Jurídica Exportador 0 Metropolitana de São Paulo 820 10 Não 1 Metropolitana de São Paulo 570 10 Não 2 Norte Fluminense 510 10 Não Importador cluster 0 Não 00 1 Não 00 2 Não 00 3 rows x 25 columns baseleadsxlsx class pandascoreframeDataFrame RangeIndex 55038 entries 0 to 55037 Data columns total 24 columns Column NonNull Count Dtype 0 CodEmp 55038 nonnull int64 1 CodCNAE 55038 nonnull int64 2 CNAEs 55038 nonnull object 3 SegmentoCO 55038 nonnull object 4 SegmentoGL 55038 nonnull object 5 SubsegGL 55038 nonnull object 6 CodGr 55038 nonnull int64 7 StatusGr 55038 nonnull object 8 PDPrior 55038 nonnull object 9 FatPres 55038 nonnull int64 10 TitDevs 55038 nonnull int64 11 Porte 55038 nonnull object 12 Situação 55038 nonnull object 13 NíveIAtiv 55038 nonnull object 14 RiscoInad 55038 nonnull object 15 CNAEs Secundários 55038 nonnull object 16 Cidade 55038 nonnull object 17 Estado 55038 nonnull object 18 Microregião 55032 nonnull object 19 Mesoregião 55032 nonnull object 20 QuantFuncionarios 54858 nonnull float64 21 Natureza Jurídica 55038 nonnull int64 22 Exportador 9271 nonnull object 23 Importador 11968 nonnull object dtypes float641 int646 object17 memory usage 101 MB None CodEmp CodCNAE CNAEs 0 100000166 4110700 4110700 Incorporação de empreendimentos imob 1 100000172 7112000 7112000 Serviços de engenharia 2 100000424 7311400 7311400 Agências de publicidade SegmentoCO SegmentoGL SubsegGL CodGr 0 ENGENHARIACONSTRUÇÃO CONSTRUCAO E PROJETOS INCORPORADORA 0 1 SERVIÇOS SERVICOS ENGENHARIA 0 2 SERVIÇOS SERVICOS MARKETING 0 StatusGr PDPrior FatPres RiscoInad 0 0 SI 12125000 Muito baixo 1 0 SI 22400000 Muito baixo 2 0 SI 12125000 Muito baixo CNAEs Secundários Cidade 0 41204005223100646200068102036822600 Brasilia 1 8020001771100077390997020400731900462023 Sao Bernardo Do Campo 2 Sao Paulo Estado Microregião Mesoregião QuantFuncionarios 0 DF Brasília Distrito Federal 1170 1 SP São Paulo Metropolitana de São Paulo 500 2 SP São Paulo Metropolitana de São Paulo 760 Natureza Jurídica Exportador Importador 0 1 NaN NaN 1 1 NaN NaN 2 1 NaN NaN 3 rows x 24 columns baseleadsokxlsx class pandascoreframeDataFrame RangeIndex 1017 entries 0 to 1016 Data columns total 25 columns Column NonNull Count Dtype 0 CodEmp 1017 nonnull int64 1 CodCNAE 1017 nonnull int64 2 CNAEs 1017 nonnull object 3 SegmentoCO 1017 nonnull object 4 SegmentoGL 1017 nonnull object 5 SubsegGL 1017 nonnull object 6 CodGr 1017 nonnull int64 7 StatusGr 1017 nonnull object 8 Target 1017 nonnull int64 9 PDPrior 1017 nonnull object 10 FatPres 1017 nonnull int64 11 TitDevs 1017 nonnull int64 12 Porte 1017 nonnull object 13 Situação 1017 nonnull object 14 NívelAtiv 1017 nonnull object 15 RiscoInad 1017 nonnull object 16 CNAEs Secundários 1017 nonnull object 17 Cidade 1017 nonnull object 18 Estado 1017 nonnull object 19 Microrregião 1017 nonnull object 20 Mesorregião 1017 nonnull object 21 QuantFuncionarios 1016 nonnull float64 22 Natureza Jurídica 1017 nonnull int64 23 Exportador 407 nonnull object 24 Importador 493 nonnull object dtypes float641 int647 object17 memory usage 1988 KB None CodEmp CodCNAE CNAEs 0 100026910 1099699 1099699 Fabricação de outros produtos alimen 1 100028986 4329103 4329103 Instalação manutenção e reparação d 2 100056633 1414200 1414200 Fabricação de acessórios do vestuári SegmentoCO SegmentoGL SubsegGL CodGr 0 ALIMENTOSBEBIDAS ALIMENTOSBEBIDAS MANUFATURA 680 1 ENGENHARIACONSTRUÇÃO CONSTRUCAO E PROJETOS INSTALACAO 29 2 BENS DE CONSUMO TEXTIL E VESTUARIO MANUFATURA 1432 StatusGr Target PDPrior RiscoInad 0 INATIVO CHURN 0 2023 Baixo 1 ATIVO 1 2023 Muito baixo 2 INATIVO 0 2023 Muito baixo CNAEs Secundários Cidade Estado 18 Estado 1017 nonnull object 19 Microrregião 1017 nonnull object 20 Mesorregião 1017 nonnull object 21 QuantFuncionarios 1016 nonnull float64 22 Natureza Jurídica 1017 nonnull int64 23 Exportador 407 nonnull object 24 Importador 493 nonnull object dtypes float641 int647 object17 memory usage 1988 KB None CodEmp CodCNAE CNAEs 0 100026910 1099699 1099699 Fabricação de outros produtos alimen 1 100028986 4329103 4329103 Instalação manutenção e reparação d 2 100056633 1414200 1414200 Fabricação de acessórios do vestuári 3 100074569 1122403 1122403 Fabricação de refrescos xaropes e p 4 100080671 1042200 1042200 Fabricação de óleos vegetais refinad SegmentoCO SegmentoGL SubsegGL CodGr 0 ALIMENTOSBEBIDAS ALIMENTOSBEBIDAS MANUFATURA 680 1 ENGENHARIACONSTRUÇÃO CONSTRUCAO E PROJETOS INSTALACAO 29 2 BENS DE CONSUMO TEXTIL E VESTUARIO MANUFATURA 1432 3 ALIMENTOSBEBIDAS ALIMENTOSBEBIDAS MANUFATURA 1503 4 ALIMENTOSBEBIDAS ALIMENTOSBEBIDAS MANUFATURA 1124 StatusGr Target PDPrior RiscoInad 0 INATIVO CHURN 0 2023 Baixo 1 ATIVO 1 2023 Muito baixo 2 INATIVO 0 2023 Muito baixo 3 ATIVO 1 2023 Muito baixo 4 ATIVO 1 2023 Muito baixo CNAEs Secundários Cidade Estado 0 4693100109610046184018292000469150046923 Sorocaba SP 1 Sao Paulo 2 3299005174190218130991731100749019946427 Blumenau SC 3 1033302109969911224021122499 Rio De Janeiro RJ 4 1415011041400106430010651011065102106510 Itumbiara GO Microrregião Mesorregião QuantFuncionarios 0 Sorocaba Macro Metropolitana Paulista 2760 1 São Paulo Metropolitana de São Paulo 2710 2 Blumenau Vale do Itajaí 7670 3 Rio de Janeiro Metropolitana do Rio de Janeiro 2630 4 Meia Ponte Sul Goiano 2210 Natureza Jurídica Exportador Importador 0 1 NaN Sim 1 1 NaN NaN 2 1 Sim Sim 3 1 Sim Sim 4 1 Sim Sim 5 rows x 25 columns printdfcolumnstolist CodEmp CodCNAE CNAEs SegmentoCO SegmentoGL SubsegGL CodGr StatusGr Target PDPrior FatPres TitDevs Porte Situação NívelAtiv RiscoInad CNAEs Secundários Cidade Estado Microrregião Mesorregião QuantFuncionarios Natureza Jurídica Exportador Importador Escolher features numéricas principais features FatPres QuantFuncionarios ajuste conforme os nomes exatos Remover linhas com valores ausentes nessas colunas dfclean dfdropnasubsetfeatures printfLinhas após remoção de nulos dfcleanshape Linhas após remoção de nulos 1016 25 Padronizar os dados scaler StandardScaler Xscaled scalerfittransformdfcleanfeatures Método do cotovelo inertia K range1 10 for k in K kmeans KMeansnclustersk randomstate42 kmeansfitXscaled inertiaappendkmeansinertia pltplotK inertia bx pltxlabelNúmero de Clusters pltylabelInertia plttitleMétodo do Cotovelo pltshow Silhouette Score opcional for k in range2 10 kmeans KMeansnclustersk randomstate42 labels kmeansfitpredictXscaled score silhouettescoreXscaled labels printfSilhouette Score para kk score4f Silhouette Score para k2 09641 Silhouette Score para k3 06453 Silhouette Score para k4 07280 Silhouette Score para k5 07616 Silhouette Score para k6 07602 Silhouette Score para k7 07618 Silhouette Score para k8 07721 Silhouette Score para k9 06502 Por exemplo 3 clusters kmeans KMeansnclusters3 randomstate42 dfcleanCluster kmeansfitpredictXscaled printdfcleanClustervaluecounts Cluster 2 546 0 468 1 2 Name count dtype int64 ipythoninput1511134421593 SettingWithCopyWarning A value is trying to be set on a copy of a slice from a DataFrame Try using locrowindexercolindexer value instead See the caveats in the documentation httpspandaspydataorgpandasdocsstableuserguideindexinghtmlreturningaviewversusacopy dfcleanCluster kmeansfitpredictXscaled snsscatterplot xdfcleanFatPres ydfcleanQuantFuncionarios huedfcleanCluster paletteSet1 plttitleClusters pltshow Se quiser carregar cluster0csv dfoldcluster dataframescluster0csv Ver exemplo de comparação printdfoldclusterhead CodEmp CodCNAE CNAEs 0 100020648 5911199 5911199 Atividades de produção cinematográfi 1 100022630 5920100 5920100 Atividades de gravação de som e de e 2 100060378 4930202 4930202 Transporte rodoviário de carga exce 3 100075032 7112000 7112000 Serviços de engenharia 4 100081993 729404 0729404 Extração de minérios de cobre chumb CodGr SegmentoCO SegmentoGL SubsegGL 0 COMUNICAÇÃO SERVICOS COMUNICACAO 00 1 COMUNICAÇÃO SERVIÇOS COMUNICACAO 00 2 LOGISTICATRANSPORTE LOGISTICA TRANSPORTADOR 00 3 SERVIÇOS SERVIÇOS ENGENHARIA 00 4 MINERADORA MANUFATURA EXTRATIVISTA E BENEFICIAMENTO 00 StatusGr PDPrior FatPres 0 0 SI 224000000 1 0 SI 121250000 2 0 SI 172300000 3 0 SI 121250000 4 0 SI 172300000 CNAEs Secundários Cidade 0 591110259138005920100 Sao Paulo 1 464940759111997311400 Sao Paulo 2 773909946630007820500773220149230024330404 Sao Joao Da Barra 3 Rio De Janeiro 4 990402 Tunas Do Parana Estado Microrregião Mesorregião 0 SP São Paulo Metropolitana de São Paulo 1 SP São Paulo Metropolitana de São Paulo 2 RJ Campos dos Goytacazes Norte Fluminense 3 RJ Rio de Janeiro Metropolitana do Rio de Janeiro 4 PR Curitiba Metropolitana de Curitiba QuantFuncionarios Natureza Jurídica Exportador Importador cluster 0 820 10 Não Não 00 1 570 10 Não Não 00 2 510 10 Não Não 00 3 190 10 Não Não 00 4 930 10 Não Não 00 5 rows x 25 columns Adicionar coluna log do faturamento import numpy as np dfcleanlogFatPres nplog1pdfcleanFatPres log1 x evita log0 Verificar nova feature dfcleanFatPres logFatPreshead ipythoninput1836515223294 SettingWithCopyWarning A value is trying to be set on a copy of a slice from a DataFrame Try using locrowindexercolindexer value instead See the caveats in the documentation httpspandaspydataorgpandasdocsstableuserguideindexinghtmlreturningaviewversusacopy dfcleanlogFatPres nplog1pdfcleanFatPres log1 x evita log0 summary name dfcleanFatPres logFatPres rows 5 fields column FatPres properties dtype number std 744129731 min 56700000 max 1500000000 numuniquevalues 3 samples 236000000 1500000000 56700000 semantictype description column logFatPres properties dtype number std 14913081035777738 min 17853284786334665 max 2112873094572124 numuniquevalues 3 samples 19279342367227173 2112873094572124 17853284786334665 semantictype description typedataframe features logFatPres QuantFuncionarios Remover nulos deve estar ok Xscaled scalerfittransformdfcleanfeatures Elbow Method com logFatPres inertia K range1 10 for k in K kmeans KMeansnclustersk randomstate42 kmeansfitXscaled inertiaappendkmeansinertia pltplotK inertia bx pltxlabelNúmero de Clusters pltylabelInertia plttitleMétodo do Cotovelo logFatPres pltshow Silhouette Score for k in range2 10 kmeans KMeansnclustersk randomstate42 labels kmeansfitpredictXscaled score silhouettescoreXscaled labels printfSilhouette Score para kk score4f Método do Cotovelo logFatPres Silhouette Score para k2 04400 Silhouette Score para k3 04714 Silhouette Score para k4 04070 Silhouette Score para k5 04442 Silhouette Score para k6 04253 Silhouette Score para k7 04320 Silhouette Score para k8 04527 Silhouette Score para k9 04677 Novo clustering usando logFatPres kmeans KMeansnclusters5 randomstate42 dfcleanCluster kmeansfitpredictXscaled ipythoninput2133513388583 SettingWithCopyWarning A value is trying to be set on a copy of a slice from a DataFrame Try using locrowindexercolindexer value instead See the caveats in the documentation httpspandaspydataorgpandasdocsstableuserguideindexinghtmlreturningaviewversusacopy dfcleanCluster kmeansfitpredictXscaled snsscatterplot xdfcleanlogFatPres ydfcleanQuantFuncionarios huedfcleanCluster paletteSet1 plttitleClusters logFatPres pltshow Ver correlação entre variáveis numéricas corr dfcleanFatPres QuantFuncionarioscorr printcorr snsheatmapcorr annotTrue cmapcoolwarm plttitleMatriz de Correlação pltshow FatPres QuantFuncionarios FatPres 1000000 0043068 QuantFuncionarios 0043068 1000000 Matriz de Correlação Supondo que LTV seja proporcional ao faturamento simplificação dfcleanLTV dfcleanFatPres 12 exemplo supõe que LTV 120 do faturamento Simular um CAC aleatório dentro de uma faixa plausível nprandomseed42 dfcleanCAC nprandomrandint1000 5000 sizelendfclean Ver exemplo printdfcleanFatPres LTV CAChead FatPres LTV CAC 0 236000000 2832000e08 4174 1 150000000 1800000e09 4507 2 56700000 6804000e07 1860 3 150000000 1800000e09 2294 4 150000000 1800000e09 2130 ipythoninput2424280727462 SettingWithCopyWarning A value is trying to be set on a copy of a slice from a DataFrame Try using locrowindexercolindexer value instead See the caveats in the documentation httpspandaspydataorgpandasdocsstableuserguideindexinghtmlreturningaviewversusacopy dfcleanLTV dfcleanFatPres 12 exemplo supõe que LTV 120 do faturamento ipythoninput2424280727466 SettingWithCopyWarning A value is trying to be set on a copy of a slice from a DataFrame Try using locrowindexercolindexer value instead See the caveats in the documentation httpspandaspydataorgpandasdocsstableuserguideindexinghtmlreturningaviewversusacopy dfcleanCAC nprandomrandint1000 5000 sizelendfclean Agrupar por cluster clustersummary dfcleangroupbyClusteragg FatPres mean LTV mean CAC mean QuantFuncionarios mean resetindex printclustersummary Cluster FatPres LTV CAC QuantFuncionarios 0 0 6302044e09 7562453e09 3078437037 232955556 1 1 3461042e07 4153250e07 3050599424 83288184 2 2 3383904e07 4060685e07 2882470199 283827815 3 3 1562812e08 1875374e08 2813560000 1082160000 4 4 1962031e08 2354437e08 3059902235 203025140 snsscatterplot dataclustersummary xCAC yLTV hueCluster paletteSet1 s100 plttitleCAC vs LTV por Cluster pltshow CAC vs LTV por Cluster Cluster 0 1 2 3 4 LTV 7 6 5 4 3 2 1 0 2850 2890 2950 3000 3050 CAC dfcleanDesempenhoCliente nprandomrandint1 10 sizelendfclean Exemplo criar coluna de pontuação de desempenho simulada nprandomseed42 dfcleanDesempenhoCliente nprandomrandint1 10 sizelendfclean printdfcleanFatPres QuantFuncionarios DesempenhoClientehead FatPres QuantFuncionarios DesempenhoCliente 0 2360000000 2760 7 1 1500000000 2710 4 2 567000000 7670 8 3 1500000000 2630 5 4 1500000000 2210 7 ipythoninput2716159578383 SettingWithCopyWarning A value is trying to be set on a copy of a slice from a DataFrame Try using locrowindexercolindexer value instead See the caveats in the documentation httpspandaspydataorgpandasdocsstableuserguideindexinghtmlreturningaviewversusacopy
1
Linguagens de Programação
FMU
36
Linguagens de Programação
FMU
3
Linguagens de Programação
FMU
202
Linguagens de Programação
FMU
13
Linguagens de Programação
FMU
210
Linguagens de Programação
FMU
18
Linguagens de Programação
FMU
16
Linguagens de Programação
FMU
12
Linguagens de Programação
FMU
20
Linguagens de Programação
FMU
Texto de pré-visualização
cellscelltypecodeexecutioncount1idc4f0be2595bf4b95832240a876ed2b00metadataidc4f0be2595bf4b958322 40a876ed2b00executionInfostatusoktimestamp1698294179557usertz180elapsed1857userdisplayNameHellen E S SomavillauserId04864206991070374080outputssourceimport pandas as pd import numpy as np from sklearncluster import KMeans from sklearnpreprocessing import StandardScaler from sklearnpreprocessing import LabelEncoder from sklearnmetrics import silhouettescore from sklearn import tree import matplotlibpyplot as plt import seaborn as sns import graphviz from sklearntree import exportgraphviz matplotlib inline nprandomseed42celltypecodesourcefrom googlecolab import drive drivemountcontentdrivemetadatacolab baseurihttpslocalhost8080idmEZv35AS1viEexecutionInfo statusoktimestamp1698294206708usertz180elapsed27154userdisplayNameHellen E S SomavillauserId04864206991070374080outputIdf5878a9b6e1b4ba08ba1 992a5be5951didmEZv35AS1viEexecutioncount2outputsoutputtypestreamnamestdouttextMounted at contentdrive celltypecodeexecutioncount3idcf4b6dbbad434505aadd073d6192f75ametadataidcf4b6dbbad43 4505aadd073d6192f75aexecutionInfostatusoktimestamp1698294267055usertz180elapsed25775user displayNameHellen E S SomavillauserId04864206991070374080outputssourceImportação do dataset source contentdriveMyDrive0 UFPR DataScience Trab0 UFPR DS HellenFB1024baseleadsxlsx df pdreadexcelsource skiprows0 celltypecodeexecutioncount4idc7a7073a263642d1a79d299d12991e23metadatacolab baseurihttpslocalhost8080height200idc7a7073a263642d1a79d299d12991e23executionInfo statusoktimestamp1698294274318usertz180elapsed463userdisplayNameHellen E S SomavillauserId04864206991070374080outputId6c77da07c20f444bec587373bda6043foutputs outputtypeexecuteresultdatatextplain CodEmp CodCNAE CNAEs 0 100000166 4110700 4110700 Incorporação de empreendimentos imob SegmentoCO SegmentoGL SubsegGL CodGr 0 ENGENHARIACONSTRUÇÃO CONSTRUCAO E PROJETOS INCORPORADORA 0 StatusGr PDPrior FatPres RiscoInad 0 0 SI 12125000 Muito baixo CNAEs Secundários Cidade Estado Microregião 0 41204005223100646200068102036822600 Brasilia DF Brasília Mesoregião QuantFuncionarios Natureza Jurídica Exportador Importador 0 Distrito Federal 1170 1 NaN NaN 1 rows x 24 columnstexthtml CodEmp CodCNAE CNAEs SegmentoCO SegmentoGL SubsegGL CodGr StatusGr PDPrior F 0 100000166 4110700 4110700 Incorporação de empreendimentos imob ENGENHARIACONSTRUÇÃO CONSTRUCAO E PROJETOS INCORPORADORA 0 0 SI 12 1 rows 24 columns metadataexecutioncount4sourceVisualização do dataframe dfhead1 celltypecodeexecutioncount25id50675ed1metadatacolab baseurihttpslocalhost8080id50675ed1executionInfo statusoktimestamp1698295424174usertz180elapsed207userdisplayNameHellen E S SomavillauserId04864206991070374080outputIdb8df753d0c934676866d24e6d1b3e440outputs outputtypestreamnamestdouttext Int64Index 54858 entries 0 to 55037 Data columns total 24 columns Column NonNull Count Dtype 0 CodEmp 54858 nonnull int64 1 CodCNAE 54858 nonnull int64 2 CNAEs 54858 nonnull object 3 SegmentoCO 54858 nonnull object 4 SegmentoGL 54858 nonnull object 5 SubsegGL 54858 nonnull object 6 CodGr 54858 nonnull int64 7 StatusGr 54858 nonnull object 8 PDPrior 54858 nonnull object 9 FatPres 54858 non null float64 10 TitDevs 54858 nonnull int64 11 Porte 54858 nonnull object 12 Situação 54858 nonnull object 13 NívelAtiv 54858 nonnull object 14 RiscoInad 54858 nonnull object 15 CNAEs Secundários 54858 nonnull object 16 Cidade 54858 nonnull object 17 Estado 54858 nonnull object 18 Microregião 54858 nonnull object 19 Mesoregião 54858 nonnull object 20 QuantFuncionarios 54858 nonnull float64 21 Natureza Jurídica 54858 nonnull int64 22 Exportador 54858 nonnull object 23 Importador 54858 nonnull object dtypes float642 int645 object17 memory usage 105 MB sourceReconhecimento da base dfFatPres dfFatPresastypefloat dfinfocelltypecodeexecutioncount26id01649df9metadatacolab baseurihttpslocalhost8080id01649df9executionInfo statusoktimestamp1698295446643usertz180elapsed225userdisplayNameHellen E S SomavillauserId04864206991070374080outputId811d31e477604cfc9eb2acd62729f5e0outputs outputtypeexecuteresultdatatextplainCodEmp 0 CodCNAE 0 CNAEs 0 SegmentoCO 0 SegmentoGL 0 SubsegGL 0 CodGr 0 StatusGr 0 PDPrior 0 FatPres 0 TitDevs 0 Porte 0 Situação 0 NívelAtiv 0 RiscoInad 0 CNAEs Secundários 0 Cidade 0 Estado 0 Microregião 0 Mesoregião 0 QuantFuncionarios 0 Natureza Jurídica 0 Exportador 0 Importador 0 dtype int64metadataexecutioncount26sourceReconhecimento da base dfisnullsumcelltypecodeexecutioncount27idd0c1ebb7metadatacolab baseurihttpslocalhost8080idd0c1ebb7executionInfo statusoktimestamp1698295449571usertz180elapsed228userdisplayNameHellen E S SomavillauserId04864206991070374080outputId6def0c0d60114a4afe67749af2f87eefoutputs outputtypeexecuteresultdatatextplainNão 47453 Sim 7405 Name Exportador dtype int64metadata executioncount27sourceReconhecimento da coluna Exportador Exportador dfExportadorvaluecounts Exportador celltypecodeexecutioncount28id429ca8f9metadatacolabbaseurihttpslocalhost8080id429ca8f9executionInfo statusoktimestamp1698295454749usertz180elapsed250userdisplayNameHellen E S SomavillauserId04864206991070374080outputId6645e2d374ed4ef8d6ed781bd3f9fd9coutputs outputtypeexecuteresultdatatextplainNão 44835 Sim 10023 Name Importador dtype int64metadata executioncount28sourceReconhecimento da coluna Importador Importador dfImportadorvaluecounts Importador celltypecodeexecutioncount29id635e3994metadatacolab baseurihttpslocalhost8080id635e3994executionInfo statusoktimestamp1698295456890usertz180elapsed236userdisplayNameHellen E S SomavillauserId04864206991070374080outputIdc7b7308029014267ca32a1aba5792cf0outputs outputtypeexecuteresultdatatextplainSão Paulo 8736 Rio de Janeiro 3542 Belo Horizonte 2123 Curitiba 1877 Campinas 1501 Soledade 1 Sertão de Senador Pompeu 1 Itabaiana 1 Grão Mogol 1 Vale do Ipanema 1 Name Microregião Length 520 dtype int64metadataexecutioncount29sourceReconhecimento da coluna Microregião Microregião dfMicroregiãovaluecounts Microregião celltypecodeexecutioncount30id96555811metadataid96555811executionInfo statusoktimestamp1698295459182usertz180elapsed518userdisplayNameHellen E S SomavillauserId04864206991070374080outputssourceDeleta a linha NAN da coluna QuantFuncionarios dfdropnasubset QuantFuncionarios inplaceTrue Altera os campos NAN das colunas Exportador e Importador para Não dfExportador dfExportadorfillnaNão dfImportador dfImportadorfillnaNão dfMicroregião dfMicroregiãofillnaSI dfMesoregião dfMesoregiãofillnaSI Altera números diferentes de zero em um dfCodGr dfCodGrreplacei for i in dfCodGr if i 0 1celltypecodeexecutioncount31id23158c64metadatacolab baseurihttpslocalhost8080id23158c64executionInfo statusoktimestamp1698295461820usertz180elapsed205userdisplayNameHellen E S SomavillauserId04864206991070374080outputId9751541758344b2cdc152bf71432640coutputs outputtypeexecuteresultdatatextplainCodEmp 0 CodCNAE 0 CNAEs 0 SegmentoCO 0 SegmentoGL 0 SubsegGL 0 CodGr 0 StatusGr 0 PDPrior 0 FatPres 0 TitDevs 0 Porte 0 Situação 0 NívelAtiv 0 RiscoInad 0 CNAEs Secundários 0 Cidade 0 Estado 0 Microregião 0 Mesoregião 0 QuantFuncionarios 0 Natureza Jurídica 0 Exportador 0 Importador 0 dtype int64metadataexecutioncount31sourceValidação das alterações dfisnullsumcelltypecodeexecutioncount32id84a82e7035a24b6b85261e4819ea9739metadatacolab baseurihttpslocalhost8080height200id84a82e7035a24b6b85261e4819ea9739executionInfo statusoktimestamp1698295466090usertz180elapsed308userdisplayNameHellen E S SomavillauserId04864206991070374080outputId40d68fe603714216c677855fa079bd33outputs outputtypeexecuteresultdatatextplain CodEmp CodCNAE CNAEs 0 100000166 4110700 4110700 Incorporação de empreendimentos imob SegmentoCO SegmentoGL SubsegGL CodGr 0 ENGENHARIACONSTRUÇÃO CONSTRUCAO E PROJETOS INCORPORADORA 0 StatusGr PDPrior FatPres RiscoInad 0 0 SI 121250000 Muito baixo CNAEs Secundários Cidade Estado Microregião 0 41204005223100646200068102036822600 Brasilia DF Brasília Mesoregião QuantFuncionarios Natureza Jurídica Exportador Importador 0 Distrito Federal 1170 1 Não Não 1 rows x 24 columnstexthtml CodEmp CodCNAE CNAEs SegmentoCO SegmentoGL SubsegGL CodGr StatusGr PDPrior 0 100000166 4110700 4110700 Incorporação de empreendimentos imob ENGENHARIACONSTRUÇÃO CONSTRUCAO E PROJETOS INCORPORADORA 0 0 SI 12 1 rows 24 columns metadataexecutioncount32sourceVisualização do dataframe dfhead1 celltypecodeexecutioncount33ida490ed0bmetadatacolab baseurihttpslocalhost8080ida490ed0bexecutionInfo statusoktimestamp1698295469956usertz180elapsed225userdisplayNameHellen E S SomavillauserId04864206991070374080outputId7477b6424ade4848c0a76dff8632e407outputs outputtypestreamnamestdouttextNão há códigos com contagem maior que 1 sourceVerificação se não existem empresas em linhas duplicadas CodEmp dfCodEmpvaluecounts Filtra os códigos com contagem maior que 1 codigoscomcontagemmaiorque1 CodEmpCodEmp 1 Verifica se há códigos com contagem maior que 1 if not codigoscomcontagemmaiorque1empty printCódigos com contagem maior que 1 printcodigoscomcontagemmaiorque1 else printNão há códigos com contagem maior que 1 celltypecodeexecutioncount38id304789f65b90442f94f17bcc424bab6bmetadataid304789f65b90442f94f1 7bcc424bab6bexecutionInfostatusoktimestamp1698295528002usertz180elapsed281userdisplayNameHellen E S SomavillauserId04864206991070374080outputssourceFaz uma cópia do dataframe dftrat dfcopy celltypecodeexecutioncount39idcccb0527metadataidcccb0527executionInfo statusoktimestamp1698295529590usertz180elapsed249userdisplayNameHellen E S SomavillauserId04864206991070374080outputssourceDeleta as colunas desnecessárias para a análise dftratdropcolumnsCodEmp CodCNAE CNAEs SegmentoCO SubsegGL CodGr StatusGr PDPrior TitDevs Porte Situação RiscoInad CNAEs Secundários Cidade Estado Microregião Mesoregião Natureza Jurídica Exportador Importador inplaceTrue Codifica colunas categóricas com Label encoder labelencoder LabelEncoder dftratSegmentoGL labelencoderfittransformdftratSegmentoGL dftratNívelAtiv labelencoderfittransformdftratNívelAtiv celltypecodeexecutioncount40ideed0023d311a4bbd8402b6a57ebb2a75metadatacolab baseurihttpslocalhost8080height206ideed0023d311a4bbd8402b6a57ebb2a75executionInfo statusoktimestamp1698295533690usertz180elapsed244userdisplayNameHellen E S SomavillauserId04864206991070374080outputId6c7bbbe82d1b4aa3aa5003bff055957aoutputs outputtypeexecuteresultdatatextplain SegmentoGL FatPres NívelAtiv QuantFuncionarios 0 3 121250000 2 1170 1 10 224000000 5 500 2 10 121250000 2 760 3 5 7500000000 2 2120 4 2 3400000000 2 2700texthtml SegmentoGL FatPres NívelAtiv QuantFuncionarios 0 3 121250000 2 1170 1 10 224000000 5 500 2 10 121250000 2 760 3 5 7500000000 2 2120 4 2 3400000000 2 2700 metadataexecutioncount40sourceVisualização do dataframe dftrathead5 celltypecodeexecutioncount41id78975e11metadatacolab baseurihttpslocalhost8080height838id78975e11executionInfo statusoktimestamp1698295539389usertz180elapsed1630userdisplayNameHellen E S SomavillauserId04864206991070374080outputId2d1d320223a046469ae2ec971a8b7a1coutputs outputtypeexecuteresultdatatextplainarray dtypeobjectmetadata executioncount41outputtypedisplaydatadatatextplain imagepngiVBORw0KGgoAAAANSUhEUgAABSoAAAKqCAYAAAA9u2DoAAAAOXRFWHRTb2Z0d2FyZQBNYXRwbG90bGliIHZlcnNpb source Histograma Univariado dfhistfigsize168 o Pandas cria automaticamente um histograma para cada coluna numérica em seu DataFrame Os eixos x horizontal e y vertical de cada gráfico são calculados da seguinte maneira O eixo x representa os valores da variável ou seja os valores únicos na coluna O eixo y representa a contagem frequência de ocorrências de cada valor na coluna Cada barra no histograma representa a quantidade de vezes que um valor específico aparece na colunacelltypecodeexecutioncount42id4b973589metadatacolab baseurihttpslocalhost8080height853id4b973589executionInfo statusoktimestamp1698295559614usertz180elapsed1940userdisplayNameHellen E S SomavillauserId04864206991070374080outputId0e51d654a5b54db6f5d6f734270d5fb4outputs outputtypeexecuteresultdatatextplainmetadataexecutioncount42outputtypedisplaydatadata textplain imagepngiVBORw0KGgoAAAANSUhEUgAABI8AAAMzCAYAAAAvWjKCAAAAOXRFWHRTb2Z0d2FyZQBNYXRwbG90bGliIHZlc sourceCorrelação Criando uma área para plotagem do gráfico fig pltfigurefigsize1610 ax1 figsubplots Criando um gráfico de calor snsheatmap dftratcorr ax ax1 annotTrue cmap snscolorpalettevlag ascmapTruecelltypecodeexecutioncount46id6eac9efcmetadata colabbaseurihttpslocalhost8080height581id6eac9efcexecutionInfo statusoktimestamp1698295717088usertz180elapsed1177userdisplayNameHellen E S SomavillauserId04864206991070374080outputId6cace45d2954418a87ac8b5ad4c76453outputs outputtypeexecuteresultdatatextplainmetadataexecutioncount46 outputtypedisplaydatadatatextplain imagepngiVBORw0KGgoAAAANSUhEUgAABSwAAAIjCAYAAAAJGlWAAAAOXRFWHRTb2Z0d2FyZQBNYXRwbG90bGliIH source Cria um novo dataframe dfdispersaouni dftratQuantFuncionariostoframeresetindex Criando um gráfico de dispersão referente a QuantFuncionarios dfdispersaouniplotkindscatterxindexyQuantFuncionariostitleDistribuição de Empresasfigsize166celltypecodeexecutioncount49id88a6d237metadatacolab baseurihttpslocalhost8080id88a6d237executionInfo statusoktimestamp1698295965205usertz180elapsed216userdisplayNameHellen E S SomavillauserId04864206991070374080outputId11423276c8ed42a4b2f0 24146864ffaboutputsoutputtypeexecuteresultdatatextplainarray07367962 004269017 007481864 017100136 065193996 003938506 510472194 061003501 065193996 004269017 007481864 043966375 113357796 004269017 007481864 085248643 065193996 000799057 007481864 045806178 065193996 001764052 007481864 069396046metadataexecutioncount49sourceScaling função de alterar a escala dos dados para que eles tenham média zero e desvio padrão unitário scaler StandardScaler dftrat scalerfittransformdftrat dftrat celltypecodeexecutioncount50idb44a8f1emetadatacolab baseurihttpslocalhost8080height407idb44a8f1eexecutionInfo statusoktimestamp1698296248356usertz180elapsed2344userdisplayNameHellen E S SomavillauserId04864206991070374080outputId66d40016eb914262ae0c 5bd0f1d0e6b1outputsoutputtypedisplaydatadatatextplain imagepngiVBORw0KGgoAAAANSUhEUgAABKUAAAGGCAYAAACqvTJ0AAAAOXRFWHRTb2Z0d2FyZQBNYXRwbG source Initialize an empty list to store silhouette scores silhouettescores Initialize an empty list to store SSE Sum of Squared Errors for the elbow method sse Define a range of possible cluster numbers to try clusterrange range2 10 Iterate through the range of clusters for nclusters in clusterrange kmeans KMeansnclustersnclusters randomstate42 ninit auto kmeansfitdftrat Calculate silhouette score silhouetteavg silhouettescoredftrat kmeanslabels silhouettescoresappendsilhouetteavg Calculate SSE for elbow method sseappendkmeansinertia Plot silhouette scores pltfigurefigsize12 4 pltsubplot1 2 1 pltplotclusterrange silhouettescores bo plttitleSilhouette Score vs Number of Clusters pltxlabelNumber of Clusters pltylabelSilhouette Score Plot SSE for elbow method pltsubplot1 2 2 pltplotclusterrange sse bo plttitleElbow Method for Optimal Clusters pltxlabelNumber of Clusters pltylabelSSE plttightlayout pltshow celltypecodeexecutioncount51id21a404b1metadatacolab baseurihttpslocalhost8080id21a404b1executionInfo statusoktimestamp1698296631370usertz180elapsed12197user displayNameHellen E S SomavillauserId04864206991070374080outputId954b65bf a9f64780ac90359969fb32b8outputsoutputtypeexecuteresultdatatextplain array0 3 3 0 3 3 dtypeint32metadataexecutioncount51source Clusterização quantidadecluster 5 kmeans KMeansinit kmeans nclusters quantidadecluster ninit 100 kmeansfitdftrat kmeanslabels kmeanslabels kmeanslabels celltypecodeexecutioncount52id4e2e0263metadatacolab baseurihttpslocalhost8080height200id4e2e0263executionInfo statusoktimestamp1698296689152usertz180elapsed233user displayNameHellen E S SomavillauserId04864206991070374080outputId62337fb2 4fc442df8a5e59abb94461dcoutputsoutputtypeexecuteresultdatatextplain CodEmp CodCNAE CNAEs 0 100000166 4110700 4110700 Incorporação de empreendimentos imob SegmentoCO SegmentoGL SubsegGL CodGr 0 ENGENHARIACONSTRUÇÃO CONSTRUCAO E PROJETOS INCORPORADORA 0 StatusGr PDPrior FatPres 0 0 SI 121250000 CNAEs Secundários Cidade Estado Microregião 0 41204005223100646200068102036822600 Brasilia DF Brasília Mesoregião QuantFuncionarios Natureza Jurídica Exportador Importador 0 Distrito Federal 1170 1 Não Não cluster 0 0 1 rows x 25 columnstexthtml CodEmp CodCNAE CNAEs SegmentoCO SegmentoGL SubsegGL CodGr S 0 100000166 4110700 4110700 Incorporação de empreendimentos imob ENGENHARIACONSTRUÇÃO CONSTRUCAO E PROJETOS INCORPORADORA 0 0 1 rows 25 columns metadataexecutioncount52sourceImportando dados dos clusters para o dataframe original dfcluster dfcopy dfclustercluster kmeanslabels dfclusterhead1 celltypecodeexecutioncount53id22d92e49metadatacolab baseurihttpslocalhost8080height507id22d92e49executionInfo statusoktimestamp1698296698884usertz180elapsed2295user displayNameHellen E S SomavillauserId04864206991070374080outputId8abbac12 6ff5417ce0758b1845d1957coutputsoutputtypedisplaydatadatatextplain imagepngiVBORw0KGgoAAAANSUhEUgAAAnUAAAHqCAYAAABiL7hfAAAAOXRFWHRTb2Z0d2FyZQBNYXRw sourceimport matplotlibpatches as mpatches Plota os resultados da clusterização pltfigurefigsize12 5 pltsubplot1 2 1 Plota os pontos com cores diferentes para representar os clusters scatter pltscatterdfclusterFatPres dfclusterQuantFuncionarios cdfclustercluster cmaprainbow Crie uma legenda manualmente legendlabels dfclusterclusterunique legendhandles mpatchesPatchcolorscattercmapscatternormcluster labelfCluster cluster for cluster in legendlabels pltlegendhandleslegendhandles titleClusters plttitleResultado da Clusterização pltxlabelFatPres pltylabelQuantFuncionarios plttightlayout pltshow celltypecodeexecutioncount54ide0c5e093metadatacolab baseurihttpslocalhost8080height466ide0c5e093executionInfo statusoktimestamp1698296702846usertz180elapsed487user displayNameHellen E S SomavillauserId04864206991070374080outputId1b43110bf8414658ce7e c34d98c77163outputsoutputtypeexecuteresultdatatextplain metadataexecutioncount54outputtypedisplaydatadata textplain imagepngiVBORw0KGgoAAAANSUhEUgAAAkQAAAGwCAYAAABIC3rIAAAAOXRFWHRTb2Z0d2FyZQBN sourcePerfil quantidade de funcionarios de cada cluster snsboxplotdatadfcluster xcluster yQuantFuncionarios celltypecodeexecutioncount55id0a72e749metadatacolab baseurihttpslocalhost8080id0a72e749executionInfo statusoktimestamp1698296705056usertz180elapsed227user displayNameHellen E S SomavillauserId04864206991070374080outputIddd1e0e864d4d 4dbb8f714aa53ee83916outputs outputtypestreamnamestdouttextDecision tree model saved to deliverytree DecisionTreeClassifiermaxdepth7 minsamplesleaf100 minsamplessplit10 CodEmp CodCNAE CNAEs SegmentoCO SegmentoGL SubsegGL CodGr StatusGr PDPrior FatPres TitDevs Porte Situação NívelAtiv RiscoInad CNAEs Secundários Cidade Estado Microregião Mesoregião QuantFuncionarios Natureza Jurídica Exportador Importador cluster sourceGeração da DecisioTree customertree treeDecisionTreeClassifiermaxdepth 7 minsamplessplit 10 minsamplesleaf 100 customertreefitdftrat kmeanslabels printDecision tree model saved to deliverytree printcustomertree printdfclustercolumnsvalues celltypecodesourceimport pandas as pd Supondo que dftrat é um numpyndarray df pdDataFramedftrat columns SegmentoGLFatPresNívelAtivQuantFuncionarios printNúmero de colunas em dftrat dftratshape1metadatacolab baseurihttpslocalhost8080idsjaKDtdMZrubexecutionInfo statusoktimestamp1698297910484usertz180elapsed250user displayNameHellen E S SomavillauserId04864206991070374080outputId94ff3469cbc1 4221b571 6a65c421438fidsjaKDtdMZrubexecutioncount77outputs outputtypestreamnamestdouttextNúmero de colunas em dftrat 4 celltypecodesourcecolnames SegmentoGL FatPres NívelAtiv QuantFuncionarios dftrat pdDataFramedftrat columnscolnamesmetadataidM0uSHQtUdPDjexecutionInfo statusoktimestamp1698298133475usertz180elapsed206user displayNameHellen E S SomavillauserId04864206991070374080idM0uSHQtUdPDjexecutioncount79outputs celltypecodeexecutioncount80id1d7ce871metadata colab baseurihttpslocalhost8080height1000id1d7ce871executionInfo statusoktimestamp1698298136934usertz180elapsed508user displayNameHellen E S SomavillauserId04864206991070374080outputId348a8ca388e5 4bbdcbb168414ae5d55coutputsoutputtypeexecuteresultdata imagesvgxml ode 0 Seg e toG 0 56 sa p es 5 858 a ue 3 058 99 5 9 5 8 c ass 0 ode e t 0 63 sa p es 3 99 a ue 3 055 65 0 6 5 c ass 0 ue ode e t sa p es 0659 a ue 3 33 9 5 69 c ass 3 a se ode Qua t u c o a os 0 8 8 sa p es 9 a ue 9 65 0 0 c ass ode Qua t u c o a os 88 sa p es 3 08 a ue 3 0 6 0 0 658 c ass 0 ode 3 e t sa p es 39 a ue 9 38 0 0 0 c ass ode 6 sa p es 00 a ue 0 83 0 0 c ass ode sa p es 9 a ue 0 9 0 0 0 c ass ode 5 sa p es 99 a ue 9 90 0 0 0 c ass ode 8 at es 0 sa p es 3 0 8 a ue 3 0 0 3 0 c ass 0 ode Qua t u c o a os 3 39 sa p es 660 a ue 0 0 65 c ass ode 9 Qua t u c o a os 0 sa p es 3 3 a ue 3 3 6 0 0 0 c ass 0 ode Seg e toG 33 sa p es 0 a ue 698 0 3 0 0 c ass 0 ode 0 sa p es 3 a ue 3 0 0 0 0 c ass 0 ode sa p es 00 a ue 99 0 0 0 c ass 0 ode 3 sa p es 66 a ue 6 0 0 0 c ass 0 ode Qua t u c o a os 0 809 sa p es 535 a ue 53 0 0 0 c ass 0 ode 5 sa p es a ue 0 0 0 0 c ass 0 ode 6 sa p es a ue 3 0 0 0 c ass 0 ode 8 sa p es 00 a ue 0 0 0 98 c ass ode 9 at es 0 0 sa p es 560 a ue 0 0 0 559 c ass ode 0 sa p es 5 a ue 0 0 0 0 5 c ass ode sa p es 08 a ue 0 0 0 0 c ass ode 3 sa p es 33 a ue 0 33 0 0 0 c ass ode Qua t u c o a os 8 sa p es 93 a ue 3 9 5 69 c ass 3 ode 5 Qua t u c o a os 88 sa p es 9 53 a ue 3 9 6 c ass 3 ode 36 sa p es a ue 0 0 0 6 68 c ass ode 6 Qua t u c o a os 0 90 sa p es 89 5 a ue 0 0 89 3 0 c ass 3 ode 33 at es 0 0 6 sa p es 38 a ue 3 0 33 c ass 3 ode sa p es 6 a ue 0 0 5 0 c ass 3 ode 8 Qua t u c o a os 0 5 5 sa p es 8 99 a ue 0 0 8 98 0 c ass 3 ode 9 Qua t u c o a os 0 5 sa p es 5 3 a ue 0 0 5 0 c ass 3 ode 3 sa p es 56 a ue 0 0 0 56 0 c ass 3 ode 30 sa p es 8 a ue 0 0 0 8 0 c ass 3 ode 3 sa p es 59 a ue 0 0 58 0 c ass 3 ode 3 sa p es 9 a ue 0 0 0 c ass 3 ode 35 sa p es 09 a ue 0 06 c ass 3 textplainmetadataexecutioncount80sourceVisualiza a DecisionTree from sklearntree import exportgraphviz exportgraphvizcustomertree featurenameslistdftratcolumnsvalues Use dfcluster aqui outfiledeliverytreedot classnamesnpuniquekmeanslabelsastypestr filledTrue roundedTrue nodeidsTrue specialcharactersTrue impurityFalse labelall leavesparallel False with opendeliverytreedot as deliverytreeimage deliverytreegraph deliverytreeimageread graphvizSourcedeliverytreegraph celltypecodesourcepip install graphviz pip install pydotplusmetadatacolab baseurihttpslocalhost8080idggGO5HREeCHCexecutionInfo statusoktimestamp1698298360490usertz180elapsed17767user displayNameHellen E S SomavillauserId04864206991070374080outputIdc338085f3071 4f52ff5b 064c4361625aidggGO5HREeCHCexecutioncount81outputs outputtypestreamnamestdouttextRequirement already satisfied graphviz in usrlocallibpython310distpackages 0201 Requirement already satisfied pydotplus in usrlocallibpython310distpackages 202 Requirement already satisfied pyparsing201 in usrlocallibpython310distpackages from pydotplus 311 celltypecodesourceimport pydotplus from IPythondisplay import Image Convertendo o formato DOT para uma imagem graph pydotplusgraphfromdotfiledeliverytreedot Mostrando a imagem no Jupyter Notebook opcional Imagegraphcreatepng Salvando a imagem em um arquivo graphwritepngdeliverytreepng from googlecolab import files filesdownloaddeliverytreepngmetadata colab baseurihttpslocalhost8080height17idhA2y1TjIeI6VexecutionInfo statusoktimestamp1698298552924usertz180elapsed1513user displayNameHellen E S SomavillauserId04864206991070374080outputId9fcf62048966 40579f57 24468e95dc30idhA2y1TjIeI6Vexecutioncount84outputs outputtypedisplaydatadatatextplainapplicationjavascript async function downloadid filename size if googlecolabkernelaccessAllowed return const div documentcreateElementdiv const label documentcreateElementlabel labeltextContent Downloading filename divappendChildlabel const progress documentcreateElementprogress progressmax size divappendChildprogress documentbodyappendChilddiv const buffers let downloaded 0 const channel await googlecolabkernelcommsopenid Send a message to notify the kernel that were ready channelsend for await const message of channelmessages Send a message to notify the kernel that were ready channelsend if messagebuffers for const buffer of messagebuffers bufferspushbuffer downloaded bufferbyteLength progressvalue downloaded const blob new Blobbuffers type applicationbinary const a documentcreateElementa ahref windowURLcreateObjectURLblob adownload filename divappendChilda aclick divremove metadata outputtypedisplaydatadatatextplain applicationjavascriptdownloaddownloada62c0ce2be6944e8 bd74c8c82efb5184 deliverytreepng 438201metadata celltypecodeexecutioncountnullid063f6842metadatacolab baseurihttpslocalhost8080id063f6842executionInfo statusoktimestamp1698289066627usertz180elapsed1649user displayNameHellen E S SomavillauserId04864206991070374080outputIde3ea1abc6909 4880af2c9fe5227bf8baoutputs outputtypestreamnamestdouttextCluster 0CodEmp5890 Cluster 0CodCNAE4980 Cluster 0CNAEs8613 Cluster 0SegmentoCO8446 Cluster 0SegmentoGL9225 Cluster 0SubsegGL5418 Cluster 0CodGr6634 Cluster 0StatusGr5829 Cluster 0PDPrior5562 Cluster 0FatPres5034 Cluster 0TitDevs6457 Cluster 0Porte5406 Cluster 0Situação5844 Cluster 0NívelAtiv6162 Cluster 0RiscoInad6138 Cluster 0CNAEs Secundários10000 Cluster 0Cidade4514 Cluster 0Estado4514 Cluster 0Microregião4514 Cluster 0Mesoregião4514 Cluster 0QuantFuncionarios5505 Cluster 0Natureza Jurídica5844 Cluster 0Exportador5465 Cluster 0Importador5429 Cluster 3CodEmp3455 Cluster 3CodCNAE4392 Cluster 3CNAEs000 Cluster 3SegmentoCO845 Cluster 3SegmentoGL000 Cluster 3SubsegGL3073 Cluster 3CodGr3002 Cluster 3StatusGr3500 Cluster 3PDPrior3739 Cluster 3FatPres2776 Cluster 3TitDevs3278 Cluster 3Porte3397 Cluster 3Situação3491 Cluster 3NívelAtiv3680 Cluster 3RiscoInad3365 Cluster 3CNAEs Secundários000 Cluster 3Cidade4757 Cluster 3Estado4757 Cluster 3Microregião4757 Cluster 3Mesoregião4757 Cluster 3QuantFuncionarios3117 Cluster 3Natureza Jurídica3491 Cluster 3Exportador3813 Cluster 3Importador3819 Cluster 1CodEmp492 Cluster 1CodCNAE512 Cluster 1CNAEs1272 Cluster 1SegmentoCO448 Cluster 1SegmentoGL499 Cluster 1SubsegGL1432 Cluster 1CodGr069 Cluster 1StatusGr519 Cluster 1PDPrior571 Cluster 1FatPres058 Cluster 1TitDevs086 Cluster 1Porte1119 Cluster 1Situação510 Cluster 1NívelAtiv000 Cluster 1RiscoInad312 Cluster 1CNAEs Secundários000 Cluster 1Cidade541 Cluster 1Estado541 Cluster 1Microregião541 Cluster 1Mesoregião541 Cluster 1QuantFuncionarios301 Cluster 1Natureza Jurídica510 Cluster 1Exportador580 Cluster 1Importador606 Cluster 4CodEmp162 Cluster 4CodCNAE116 Cluster 4CNAEs114 Cluster 4SegmentoCO261 Cluster 4SegmentoGL276 Cluster 4SubsegGL077 Cluster 4CodGr276 Cluster 4StatusGr152 Cluster 4PDPrior128 Cluster 4FatPres270 Cluster 4TitDevs171 Cluster 4Porte077 Cluster 4Situação154 Cluster 4NívelAtiv157 Cluster 4RiscoInad184 Cluster 4CNAEs Secundários000 Cluster 4Cidade188 Cluster 4Estado188 Cluster 4Microregião188 Cluster 4Mesoregião188 Cluster 4QuantFuncionarios1075 Cluster 4Natureza Jurídica154 Cluster 4Exportador142 Cluster 4Importador145 Cluster 2CodEmp001 Cluster 2CodCNAE000 Cluster 2CNAEs000 Cluster 2SegmentoCO000 Cluster 2SegmentoGL000 Cluster 2SubsegGL000 Cluster 2CodGr020 Cluster 2StatusGr001 Cluster 2PDPrior000 Cluster 2FatPres1862 Cluster 2TitDevs008 Cluster 2Porte000 Cluster 2Situação001 Cluster 2NívelAtiv001 Cluster 2RiscoInad001 Cluster 2CNAEs Secundários000 Cluster 2Cidade000 Cluster 2Estado000 Cluster 2Microregião000 Cluster 2Mesoregião000 Cluster 2QuantFuncionarios003 Cluster 2Natureza Jurídica001 Cluster 2Exportador001 Cluster 2Importador001 source Calcular o total de cada cluster clustercounts dfclusterclustervaluecounts Calcular o percentual de participação de cada cluster em relação a cada coluna resultado for cluster in clustercountsindex clusterdata dfclusterdfclustercluster cluster totalrows lenclusterdata for col in dfclustercolumns if col cluster if dfclustercoldtype int64 or dfclustercoldtype float64 coltotal clusterdatacolastypefloatsum totalcol dfclustercolastypefloatsum else coltotal lenclusterdataclusterdatacol dfclustercoliloc0 totalcol lendfclusterdfclustercol dfclustercoliloc0 percentage coltotal totalcol 100 resultadoappendcluster col percentage Mostrar o resultado for item in resultado printfCluster item0item1item22f resultado pdDataFrameresultado salva em csv windows resultadotocsvclusterpercentualProjcsv encoding utf8 sig salva em csv colab resultadotocsvclusterpercentualcsv encoding utf8 sig filesdownloadclusterpercentualcsv celltypecodeexecutioncountnullidfe16e7femetadatacolab baseurihttpslocalhost8080idfe16e7feexecutionInfo statusoktimestamp1698289073548usertz180elapsed1758user displayNameHellen E S SomavillauserId04864206991070374080outputId70ed81f07f92 4a9ab534ea79b4adfffeoutputs outputtypestreamnamestdouttextQuantidade de linhas com valores iguais a 0 no cluster 0 31384 Quantidade de linhas com valores diferentes de 0 no cluster 0 674 Quantidade de linhas com valores iguais a 0 no cluster 1 2792 Quantidade de linhas com valores diferentes de 0 no cluster 1 7 Quantidade de linhas com valores iguais a 0 no cluster 2 3 Quantidade de linhas com valores diferentes de 0 no cluster 2 2 Quantidade de linhas com valores iguais a 0 no cluster 3 18847 Quantidade de linhas com valores diferentes de 0 no cluster 3 305 Quantidade de linhas com valores iguais a 0 no cluster 4 816 Quantidade de linhas com valores diferentes de 0 no cluster 4 28 source Número total de clusters totalclusters dfclusterclusternunique Loop para filtrar e salvar os clusters for ncluster in rangetotalclusters condicaocombinada dfclustercluster ncluster resultadofiltrado dfclustercondicaocombinada Conte a quantidade de linhas com valores iguais a 0 quantidadeiguala0 lenresultadofiltradoresultadofiltradoCodGr 0 Conte a quantidade de linhas com valores diferentes de 0 quantidadediferentede0 lenresultadofiltradoresultadofiltradoCodGr 0 Exiba a contagem para ambos os casos printfQuantidade de linhas com valores iguais a 0 no cluster ncluster quantidadeiguala0 printfQuantidade de linhas com valores diferentes de 0 no cluster ncluster quantidadediferentede0 Salve em CSV resultadofiltradotocsvfclusternclustercsv indexFalse encoding utf8sig salva em csv colab resultadofiltradotocsvfclusternclustercsv encoding utf8sig filesdownloadclustercsvmetadatakernelspec displaynamePython 3 ipykernellanguagepythonnamepython3languageinfo codemirrormode nameipythonversion3fileextensionpymimetypetextx pythonnamepythonnbconvertexporterpythonpygmentslexeripython3version3106colab provenancenbformat4nbformatminor5 UNIVERSIDADE FEDERAL DO PARANÁ HELLEN EUNICE DA SILVA SOMAVILLA METODOLOGIA DE SEGMENTAÇÃO DE CLIENTES B2B ORIENTADA A LUCRATIVIDADE E OS EFEITOS NO LIFETIME VALUE LTV CURITIBA 2025 HELLEN EUNICE DA SILVA SOMAVILLA METODOLOGIA DE SEGMENTAÇÃO DE CLIENTES B2B ORIENTADA A LUCRATIVIDADE E OS EFEITOS DO LIFETIME VALUE LVT Dissertação de Mestrado apresentada ao Programa de PósGraduação em Gestão de Organizações Liderança e Decisão PPGOLD Universidade Federal do Paraná como requisito parcial à obtenção do título de Mestre Orientador Cassius Tadeu Scarpin CURITIBA 2025 Ficha Catalográfica HELLEN EUNICE DA SILVA SOMAVILLA METODOLOGIA DE SEGMENTAÇÃO DE CLIENTES B2B ORIENTADA A LUCRATIVIDADE E OS EFEITOS DO LIFETIME VALUE LVT Dissertação de Mestrado apresentada ao Programa de PósGraduação em Gestão de Organizações Liderança e Decisão PPGOLD Universidade Federal do Paraná como requisito parcial à obtenção do título de Mestre Aprovado em de de 2025 Prof Cassius Tadeu Scarpin Orientador Professor do Programa de PósGraduação da Universidade Federal do Paraná Prof Universidade Prof Universidade Aos pilares da minha vida minhas queridas filhas e esposo Manoella Martinna e Romério cujo amor e alegria diários são minha fonte de inspiração e força ao meu orientador professor Cassius pelo encorajamento nos momentos difíceis e aos amigos acolhedores que agiram em cada momento de dúvida e celebração Cada um de vocês foi peça chave nessa conquista pela importância do amor do apoio e da amizade Dedico esta dissertação a vocês com toda a minha gratidão AGRADECIMENTOS Em geral aquele que ocupa primeiro o campo de batalha e aguarda seu inimigo está à vontade quem chega depois à cena e se apressa a lutar está cansado Sun Tzu Mintzberg et al 2010 RESUMO As organizações atuando em mercados cada vez mais limitados ou saturados enfrentam constantemente o desafio de fidelizar seus clientes e têm um processo de venda complexo para a progressão do negócio seja na expansão das frentes já existentes ou na criação de novas Essas organizações buscam impedir que seus clientes existentes se tornem inativos enquanto orientam na priorização de novas empresas a serem prospectadas alocando recursos em seus orçamentos para sustentar o portfólio e atender a requisitos estratégicos Esta pesquisa visa realizar um estudo analítico sobre a importância da metodologia de segmentação de clientes orientada à lucratividade e seus efeitos no Lifetime Value LTV Tratase da aplicação da descoberta de conhecimento em bancos de dados KDD Knowledge Discovery in Databases Como limitações o estudo contemplará o cenário de empresas do segmento financeiro nacional dependentes do fator de inadimplência e atuando no modelo B2B Business to Business utilizando informações públicas relacionadas ao cadastro de pessoas jurídica Por meio dos resultados obtidos verificase que a metodologia segmentada de clientes orientada ao LTV contribui para as inferências sobre investimentos estruturais na formação das metas de conversão dos negócios no tempo de vida dos clientes e na definição de projetos comerciais como expansão ou abertura de novas frentes de campanhas de marketing Isso auxilia na compreensão dos limites das expectativas sobre o grau de assertividade das projeções O método portanto abre proposições relacionadas à melhoria nas variáveis CAC Customer Acquisition Cost e Churn que compõem a formulação matemática do LTV Diante disso este trabalho propõe uma metodologia de segmentação de clientes baseada em variáveis de lucratividade com o uso de algoritmos de aprendizado de máquina visando aumentar a assertividade da priorização comercial e apoiar a tomada de decisão estratégica com base em dados Para que se obtenha um maior resultado em retenção de clientes alocação eficiente de recursos e previsão do comportamento futuro dos leads e clientes atuais a proposta busca integrar técnicas de clusterização análise fatorial e modelos preditivos alinhadas ao processo de KDD possibilitando inferências mais precisas e personalizadas sobre o valor de cada cliente ao longo do tempo Palavraschave Estratégia Comercial Inteligência de Mercado Lucratividade eou Indicadores de Lucratividade Filtros de Colaborativos Cluster e Negócios ABSTRACT Organizations operating in increasingly constrained or saturated markets constantly face the challenge of retaining their customers and managing a complex sales process necessary for business progression whether by expanding existing fronts or creating new ones These organizations strive to prevent current customers from becoming inactive while prioritizing new prospects allocating budget resources to sustain the portfolio and meet strategic requirements This research aims to conduct an analytical study on the importance of profitabilityoriented customer segmentation methodology and its effects on Lifetime Value LTV It involves the application of Knowledge Discovery in Databases KDD As a limitation the study will focus on companies in the national financial sector that are dependent on default rates and operate under the B2B Business to Business model using publicly available data related to corporate registration The results show that a segmented customer approach oriented toward LTV contributes to inferences about structural investments setting business conversion goals determining customer lifetime and defining commercial projects such as expansion or the launch of new marketing campaigns This helps to better understand the limitations of expectations regarding the accuracy of projections Therefore the method introduces propositions aimed at improving variables such as CAC Customer Acquisition Cost and Churn which are part of the mathematical formulation of LTV In this context the study proposes a customer segmentation methodology based on profitability variables using machine learning algorithms to increase the accuracy of commercial prioritization and support data driven strategic decisionmaking To achieve better results in customer retention efficient resource allocation and forecasting future behavior of leads and current clients the proposed approach integrates clustering techniques factor analysis and predictive models aligned with the KDD process enabling more precise and personalized insights into each customers lifetime value Keywords Commercial Strategy Market Intelligence Profitability andor Profitability Indicators Collaborative Filtering Clustering Business LISTA DE SIGLAS E TERMOS EM INGLÊS SIGLA Descrição Explicação ACO Ant Colony Optimization é um algoritmo de otimização baseado na forma como as formigas encontram os caminhos mais curtos entre seu ninho e uma fonte de alimento AG Algoritmos Genéricos são métodos de otimização inspirados nos princípios da evolução natural e genética Eles são usados para encontrar soluções aproximadas para problemas de otimização complexos que podem ser difíceis de resolver por métodos convencionais ANOVA Analysis of Variance é uma técnica estatística utilizada para comparar as médias de três ou mais segmentos determinando diferenças estatisticamente significativas entre essas médias AntMiner é um algoritmo de mineração de dados inspirado no comportamento das colônias de formigas especificamente projetado para a tarefa de descoberta de regras de classificação em grandes conjuntos de dados Arrays são estruturas que guardam uma coleção de elementos de dados geralmente do mesmo tipo em uma sequência de memória Attention Models são mecanismos utilizados em redes neurais que permitem que a rede preste atenção a partes específicas de uma entrada durante a previsão ou a execução de uma tarefa B2B Businessto Business referese a transações comerciais realizadas entre empresas B2C Businessto consumer referese a um modelo de negócios no qual as empresas vendem produtos ou serviços diretamente aos consumidores finais Backbone é um termo usado em redes de computadores para se referir à principal infraestrutura que interliga diferentes redes locais e segmentos de rede proporcionando conectividade e transporte de dados de alta velocidade entre essas redes Big Data referese a empresas do segmento de tecnologia que agrupam e correlacionam dados disponíveis por instituições públicas ou privadas para uso empresarial Bin é uma categoria ou intervalo específico dentro do qual valores contínuos são agrupados como parte do processo de binning Binning é uma técnica de préprocessamento de dados que agrupa valores contínuos em um número menor de categorias ou bins baseandose em critérios como largura de intervalo ou frequência de observações para suavizar variações nos dados e facilitar análises posteriores Boxplot também conhecido como diagrama de caixa ou gráfico de caixa e bigodes é uma representação gráfica que resume a distribuição de um conjunto de dados numéricos através de cinco números principais o valor mínimo o primeiro quartil Q1 a mediana Q2 o terceiro quartil Q3 e o valor máximo CAC Customer Acquisition Cost referese ao custo total incorrido por uma empresa para adquirir um novo cliente CDAF CrossDomain Adaptive Framework é um modelo ou estrutura adaptativa que facilita o aprendizado e a transferência de conhecimento entre diferentes domínios CEO Chief Executive Officer o cargo de maior autoridade dentro de uma empresa ou organização Churn ou taxa de cancelamento referese à proporção de clientes ou empresas que deixam de usar os serviços ou produtos da empresa Cliente indivíduo ou organização que já realizou uma compra ou utiliza os serviços da empresa e por isso já contribuem diretamente para o lucro da empresa Cluster referese a um grupo de objetos ou pontos de dados que são semelhantes entre si e são diferentes dos objetos em outros grupos Clusterização ou clustering é um método de análise de dados utilizado para agrupar um conjunto de objetos de tal forma que objetos semelhantes sejam colocados no mesmo grupo ou cluster CRM Customer é a gestão empresarial integrada para Relationship Management analisar interações com clientes e dados ao longo do ciclo de vida dele CSV CommaSeparated Values é um modelo de arquivo utilizado para guardar dados em formato de texto simples DataFrames é uma estrutura de dados bidimensional similar a uma tabela utilizada para armazenar dados em formato de linhas e colunas É uma das principais estruturas de dados usadas em bibliotecas de análise de dados como Pandas em Python Data Mining ou mineração de dados o processo de descobrir padrões tendências e informações úteis em grandes conjuntos de dados utilizando técnicas estatísticas matemáticas de inteligência artificial e de aprendizado de máquina DBSCAN DensityBased Spatial Clustering of Applications with Noise é um algoritmo de clusterização popular usado na mineração de dados e aprendizado de máquina Ao contrário de métodos de clusterização baseados em centroides como kmeans o DBSCAN é particularmente eficaz para identificar clusters de formas arbitrárias e para lidar com outliers Decision Tree é um algoritmo de aprendizado supervisionado amplamente utilizado tanto para problemas de classificação quanto de regressão Ela representa um modelo preditivo que mapeia observações sobre um item para conclusões sobre o valor alvo do item DNN Deep Neural Network ou Rede Neural Profunda é uma rede neural artificial que possui múltiplas camadas desde a camada de entrada e a camada de saída Elbow ou método do cotovelo é uma técnica heurística utilizada para determinar o número ótimo de clusters ou agrupamentos em um algoritmo de clustering como o Kmeans encontrando um ponto de inflexão o cotovelo no gráfico Feature Based referese a uma abordagem no campo do aprendizado de máquina e mineração de dados onde o foco está nas características dos dados F2P Freetoplay referese a um modelo de negócios usado principalmente na indústria de jogos eletrônicos onde os jogadores podem acessar o jogo gratuitamente GINI coeficiente de também conhecido simplesmente como Gini é uma medida de dispersão ou desigualdade frequentemente usada em economia para quantificar a desigualdade de renda ou riqueza dentro de uma população Heatmap mapa de calor é uma representação gráfica de dados onde valores individuais contidos em uma matriz são representados por cores Heurística estratégia metodológica que seleciona e utiliza variáveis com base na experiência intuição ou práticas comprovadas Higienização Processo que envolve a remoção de duplicatas correção de erros e atualização dos dados para assegurar a precisão e a utilidade das informações evitando erros e inconsistências Insight compreensão profunda e estratégica orientando decisões de alto impacto que direcionam a empresa para o crescimento e sustentabilidade a longo prazo Interquartil é uma medida estatística da dispersão ou variabilidade de um conjunto de dados É a diferença entre o 3º quartil Q3 e o 1º quartil Q1 de um total de informações representando a faixa dos 50 centrais das informações IQR Interquartil range também conhecido como amplitude interquartil é uma medida de dispersão estatística que descreve a extensão dos valores centrais de um conjunto de dados Especificamente o IQR é a diferença entre o terceiro quartil Q3 e o primeiro quartil Q1 e representa a faixa onde se encontra os 50 centrais dos dados KDD Knowledge Discovery in Databases processo de identificar padrões atuais e novos potencialmente úteis em um grande conjunto de dados Kmeans é um algoritmo de aprendizado de máquina não supervisionado usado para resolver problemas de clustering ou agrupamentos de objetos Lead é um potencial cliente indivíduo ou empresa que demonstra interesse nos produtos ou serviços da empresa mas ainda não realizou uma compra e portanto representam potenciais fontes de lucro no futuro Lifespan Customer Lifecycle ou ciclo de vida do cliente referese ao período total durante o qual um cliente permanece ativo e gera receita para uma empresa Logit multinomial é um modelo estatístico usado para predição e classificação em situações na qual a variável dependente é categorizada com mais de duas categorias LTR Lifetime Revenue é uma métrica usada para quantificar a receita total que um cliente gera durante todo o período em que mantém um relacionamento com uma empresa LTV Lifetime Value é um conceito de marketing usado para estimar o valor total que uma empresa pode esperar receber de um cliente ao longo de todo o seu relacionamento com essa empresa Marketing conjunto de práticas e processos utilizados por organizações para promover vender produtos ou serviços Matplotlib é uma biblioteca de visualização de dados em Python que permite criar gráficos estáticos e interativos Missingno é uma biblioteca em Python projetada para visualizar e diagnosticar valores ausentes em conjuntos de dados NumPy Numerical Python é uma biblioteca de código aberto para a linguagem de programação Python que fornece para suporte para arrays e matrizes multidimensionais juntamente com uma coleção de funções matemáticas de alto nível para operar esses arrays Outlier é um ponto de dados que difere significativamente dos outros pontos de um conjunto de dados geralmente a maior Pandas é uma biblioteca para análise e manipulação de dados em Python Pipeline é um termo amplamente utilizado em tecnologia e ciência de dados que se refere a uma série de etapas sequenciais pelas quais os dados ou tarefas passam desde o início até a conclusão PnP PlugandPlay é um termo usado para descrever dispositivos de hardware ou software que são projetados para funcionar com um mínimo de configuração e intervenção do usuário Prospects clientes ou empresas que tem potencial para se tornarem clientes da empresa no futuro Python é uma linguagem de programação de alto nível amplamente utilizada que oferece uma ampla biblioteca padrão facilitando a extensão de sua funcionalidade para praticamente qualquer tarefa Recall também conhecido como sensibilidade ou taxa de verdadeiros positivos é uma métrica de desempenho utilizada na avaliação de modelos de classificação Ele mede a capacidade do modelo de identificar corretamente todas as ocorrências positivas verdadeiros positivos dentro do conjunto de dados RF Randon Forest é um algoritmo de aprendizado em conjunto usado tanto para classificação quanto para regressão RNA Redes Neurais Artificiais são algoritmos de aprendizado de máquina com funcionamento similar ao cérebro humano São compostas por unidades interligadas chamadas neurônios artificiais organizadas em camadas As RNAs são usadas para uma variedade de tarefas incluindo classificação regressão e reconhecimento de padrões RNN Recurrent Neural Network ou rede neural recorrente é um tipo de rede neural artificial projetada para reconhecer padrões em sequências de dados como séries temporais texto ou áudio Scikitlearn é uma biblioteca de código aberto para aprendizado de máquina em Python Ela oferece uma vasta gama de ferramentas eficientes e fáceis de usar para mineração de dados e análise de dados Seaborn é uma biblioteca de visualização de dados em Python com base no Matplotlib Ela fornece interface de alto nível para desenho de gráficos estatísticos informativos Seq2Seq Sequenceto Sequence Learning é uma abordagem de aprendizado profundo que mapea uma sequência de entrada para uma sequência de saída frequentemente utilizada em tarefas onde a saída não tem a mesma duração que a entrada Silhouette é uma técnica de avaliação de clusterização que mede a qualidade de uma segmentação de dados Ela quantifica o quão bem cada ponto de dados foi agrupado comparando a coesão dentro do cluster e a separação entre clusters SQL Structured Query Language é uma linguagem de programação útil para estudos das informações em bancos de dados relacionais SSE Sum of Squared Errors Soma dos Erros Quadráticos Subplot é um termo utilizado em visualização de dados para se referir a múltiplos gráficos ou figuras exibidas em uma única tela ou página organizados em uma grade Testes T são testes estatísticos utilizados para comparar as médias de dois grupos e determinar se as diferenças observadas entre as médias são estatisticamente significativas TIC Tecnologia da Informação e Comunicação referemse ao conjunto de recursos tecnológicos e de comunicação utilizados para a criação armazenamento processamento transmissão e disseminação de informações ZILN ZeroInflated Lognormal é um modelo estatístico utilizado para lidar com dados que possuem uma alta proporção de zeros juntamente com valores contínuos que seguem uma distribuição lognormal ÍNDICE DE TABELAS Tabela 1 Resumo dos clusters com métricas médias de negócio158 ÍNDICE DE FIGURAS Figura 1 Uma visão geral das etapas que compõem o processo KDD33 Figura 2 Boxplot46 Figura 04 Gráfico da Pontuação de Silhueta em função do número de clusters69 Figura 5 Visualização dos clusters gerados pelo KMeans com redução PCA73 Figura 6 Scree Plot Distribuição dos Autovalores por Componente Principal75 Figura 7 Scree Plot dos Autovalores por Componente Principal77 Figura 8 Comparação entre abordagens de classificação interpretabilidade desempenho preditivo e complexidade computacional79 Figura 9 Exemplo esquemático de uma árvore de decisão simulando a classificação de clientes com base em perfil e comportamento82 Figura 10 Estrutura de Funcionamento de um Algoritmo Genético87 Figura 11 Proposta de segmentação de clientes baseado no valor ao longo da sua vida e na sua lealdade à marca123 123 Figura 12 Matriz de correlação entre Faturamento e Quantidade de Funcionários 141 Figura 13 Gráfico do método do cotovelo para definição do número de clusters dados brutos144 Figura 14 Gráfico do método do cotovelo com transformação logarítmica do Faturamento147 Figura 15 Distribuição dos clusters considerando Faturamento original e Quantidade de Funcionários149 Figura 16 Distribuição dos clusters considerando Faturamento transformado em log e Quantidade de Funcionários150 Figura 17 Relação entre CAC e LTV médios por cluster153 SUMÁRIO CAPÍTULO I17 1 INTRODUÇÃO17 11 DESCRIÇÃO DO PROBLEMA20 12 OBJETIVOS21 121 Objetivo Geral21 122Objetivos Específicos22 13 JUSTIFICATIVA DO TRABALHO23 14 LIMITAÇÕES DO TRABALHO24 15 ESTRUTURA DO TRABALHO26 CAPÍTULO II30 2REVISÃO DA LITERATURA30 21 PROCESSO DE KNOWLEDGE DISCOVERY IN DATABASE KDD30 211 Tratamento de dados33 2111 Eliminando Ruídos E Inconsistências34 2112 Tratando Valores Ausentes37 2113 Normalização Dos Dados40 2114 Outliers BOXPLOT43 21141 Estrutura E Componentes De Um Boxplot45 2115 Uso Do Python47 21151 Pandas49 21152 Numpy52 21153ScikitLearn54 21154 Matplotlib56 21155 Seaborn59 21156 MISSINGNO61 212 Transformação De Dados63 2121 Método De Clusterização65 21211 ELBOW67 21212 SILHOUETTE69 2122 KMEANS71 2123 Análise Fatorial73 2124 Análise De Componentes Principais Pca76 213 Data Mining Para Classificação78 2131 Algoritmos De Classificação78 2132 DECISION TREE ARVORES DE DECISÃO PARA REGRAS DE CLASSIFICAÇÃO80 2133 RF Random Forest82 2134 RNA Redes Neurais Artificiais84 2135 AG Algoritmos Genéticos86 22 SEGMENTAÇÃO DE CLIENTES89 221 Pureza E Uniformidade Dos Segmentos90 222 Diferenciação Entre Segmento92 223 Matriz De Confusão94 224 testes e hipóteses97 225 Análise de correlação entre segmentos e variáveis de negócios98 226 Interpretação Dos Resultados E Indicadores100 227 CAC e LTV101 2271 CAC Customer Acquisition Cost103 2272 LTV Lifetime Value105 23 SEGMENTAÇÃO DE CLIENTES B2B108 231 Critérios relevantes para segmentação B2B110 2311 Critérios financeiros111 2312Critérios comportamentais113 2313 Critérios estratégicos114 232 Técnicas quantitativas para segmentação B2B115 233 Desafios atuais e perspectivas futuras118 CAPÍTULO III121 3 TRABALHOS CORRELATOS121 CAPÍTULO IV132 4 METODOLOGIA132 41 TIPO DE PESQUISA132 42 PROCEDIMENTOS METODOLÓGICOS133 43 FERRAMENTAS E SOFTWARES135 44 LIMITAÇÕES METODOLÓGICAS136 441 Pré Processamento137 442 Análise Estatística139 443 Mineração De Dados142 444 Simulação de métricas de negócio152 CAPÍTULO 5156 5 RESULTADOS E DISCUSSÃO156 51 RESULTADOS156 511 Discussão Estratégica dos Clusters159 52 DISCUSSÃO161 CONCLUSÃO166 REFERÊNCIAS BIBLIOGRÁFICAS170 ANEXOS176 17 CAPÍTULO I 1 INTRODUÇÃO No atual cenário corporativo empresas inseridas em mercados saturados enfrentam desafios significativos para manter sua base de clientes ativa e simultaneamente expandir suas operações comerciais em um ambiente altamente competitivo Com a intensificação da concorrência e a crescente exigência dos consumidores tornase cada vez mais difícil preservar o engajamento e a lealdade do públicoalvo apenas com abordagens tradicionais Nesse contexto destacase a necessidade de estratégias bem estruturadas que sustentem o relacionamento com os clientes já conquistados evitando sua inatividade e possível evasão Para tanto muitas organizações alocam recursos significativos em seus orçamentos não apenas para viabilizar campanhas de fidelização mas também para garantir o cumprimento de metas comerciais e objetivos estratégicos Tais metas por sua vez costumam ser fundamentadas em projeções de longo prazo frequentemente amparadas em inferências heurísticas e planejamentos orientados por experiências anteriores e tendências de mercado É nesse ambiente desafiador que emergem metodologias e técnicas orientadas por dados com o propósito de auxiliar gestores na identificação das reais necessidades de seus clientes e prospects O termo prospects amplamente utilizado no meio empresarial referese a indivíduos ou empresas que ainda não realizaram uma compra mas que apresentam perfil compatível com os critérios do públicoalvo da organização configurandose como potenciais clientes No presente trabalho o termo será mantido em sua forma original em inglês respeitando seu uso consagrado no contexto comercial e de marketing Com o auxílio dessas ferramentas os gestores podem descobrir padrões comportamentais e desenhar ofertas personalizadas que atendam de maneira simultânea às expectativas dos clientes e às metas de rentabilidade das empresas Entre as ferramentas que vêm se destacando nas estratégias comerciais contemporâneas merece destaque o LTV Lifetime Value ou valor do tempo de vida do cliente Tratase de uma métrica essencial no monitoramento da rentabilidade de cada cliente ao longo de seu relacionamento com a empresa 18 Segundo Olnén 2022 o LTV representa o montante total que um cliente pode gerar em receita sendo 19 Capítulo 1 Introdução especialmente útil para mensurar o sucesso das estratégias de retenção e para orientar investimentos em ações comerciais específicas Quando bem utilizado o LTV permite que empresas identifiquem os clientes com maior potencial de retorno otimizando os esforços de fidelização e personalização de serviços Complementando essa visão Wu et al 2023 destacam que a aplicação do LTV tem impactos diretos na ampliação da margem de lucro pois orienta a criação de ofertas mais assertivas ações proativas de relacionamento e intervenções estratégicas voltadas para retenção Além disso permite um gerenciamento mais inteligente de clientes com baixa geração de receita promovendo o redirecionamento de recursos para segmentos mais rentáveis e viabilizando o planejamento de futuras oportunidades comerciais a partir do valor acumulado de cada perfil de cliente Dessa forma esta pesquisa se propõe a realizar um estudo baseado em dados públicos de mercado oriundos de bases amplas e abertas comumente associadas ao conceito de Big Data A proposta metodológica foi concebida pela autora com base em variáveis escolhidas de forma tanto heurística quanto estratégica levando em consideração as particularidades do produto ou serviço de interesse geralmente estruturado sob a forma de campanhas de marketing direcionadas ou perfis ideais de clientes O objetivo central é demonstrar a relevância da segmentação inteligente de leads priorizando estrategicamente as ações de prospecção e o gerenciamento cotidiano da área comercial com foco na maximização da rentabilidade e na eficiência operacional Nesse cenário os sistemas de recomendação ganham protagonismo como ferramentas essenciais para impulsionar as vendas e refinar as estratégias de marketing Tais sistemas atuam tanto na atração de novos clientes quanto na fidelização dos já existentes proporcionando experiências mais personalizadas e consequentemente mais eficazes A filtragem colaborativa uma das técnicas mais consolidadas nesse campo vem sendo constantemente aprimorada por meio da integração com abordagens analíticas diversas ampliando sua capacidade de gerar recomendações relevantes e contextualizadas Entre essas abordagens destacase a proposta deste estudo que consiste na integração entre o processo de Descoberta de Conhecimento em Bancos de 20 Capítulo 1 Introdução Dados Knowledge Discovery in Databases KDD e os sistemas de recomendação colaborativos O KDD ao explorar grandes volumes de dados e extrair padrões relevantes permite a construção de insights mais profundos e personalizados o que eleva significativamente a qualidade das decisões comerciais baseadas em dados Essa sinergia entre sistemas inteligentes e mineração de dados representa um avanço importante na busca por estratégias comerciais mais embasadas e preditivas Conforme Fayyad et al 1996 o KDD assume papel estratégico ao transformar dados brutos em conhecimento aplicável permitindo que decisões importantes sejam tomadas com base em informações robustas estruturadas e alinhadas aos objetivos organizacionais Os autores reforçam que a utilização do KDD em sistemas de apoio à decisão comercial não apenas aumenta a eficiência analítica mas também fortalece a capacidade das empresas de responder de forma ágil e fundamentada às dinâmicas do mercado 11 DESCRIÇÃO DO PROBLEMA O processo de tomada de decisão do planejamento comercial baseiase em duas etapas fundamentais e interdependentes uma etapa tática e outra estratégica Na etapa tática predomina uma abordagem analítica e racional baseada em dados concretos indicadores de desempenho e cálculos numéricos que sustentam decisões objetivas Essa fase é orientada por métricas quantificáveis como faturamento margem de contribuição taxa de conversão entre outros No entanto embora a racionalidade seja o eixo principal não se descarta a presença de inferências pontuais derivadas de situações excepcionais como alterações políticas internas sazonalidades específicas ou ocorrências de outliers isto é registros que fogem ao padrão estatístico mas que podem sinalizar oportunidades ou ameaças relevantes ao planejamento Tais exceções embora menos frequentes são levadas em consideração por sua capacidade de alterar os rumos táticos mesmo quando não previstas pelos modelos matemáticos tradicionais Na etapa estratégica por sua vez o foco se desloca para uma visão mais holística e de longo prazo Aqui o papel dos gestores de alto escalão se torna mais 21 Capítulo 1 Introdução proeminente pois são eles que baseandose em sua vivência conhecimento acumulado do setor e leitura do ambiente externo contribuem com interpretações e julgamentos subjetivos Esses insights derivados de experiências anteriores ou da sensibilidade diante de sinais do mercado são fundamentais para orientar decisões que extrapolam a objetividade dos números permitindo um direcionamento mais robusto das metas comerciais e dos investimentos futuros Essa combinação entre análise empírica e intuição estratégica busca alinhar a empresa às transformações do mercado promovendo um crescimento sustentável e planejado Desta forma a presente pesquisa está relacionada principalmente à etapa tática Visa gerar uma metodologia que define quais os leads e clientes do universo mapeado previamente necessitam de priorização de ações de relacionamento ou prospecção Em decorrência da metodologia proposta a ser apresentada no decorrer do trabalho as contribuições da aplicação de um método de segmentação de clientes com adoção de variáveis de lucratividade para alavancagem da estratégia comercial tornase uma possibilidade real e prática para aumentar a produtividade da área comercial Previsões fundamentadas em indicadores de lucratividade como o LTV não apenas ajudam o planejamento financeiro da empresa mas também contribuem para melhores decisões de marketing e orientam o gerenciamento de relacionamento com o cliente CRM WANG et al 2019 12 OBJETIVOS 121 Objetivo Geral Desenvolver uma metodologia de segmentação de clientes que permita de forma sistematizada e baseada em dados a identificação de características específicas e recorrentes de cada grupo formado a partir de variáveis comerciais relevantes A proposta visa estruturar a definição de segmentos com base em critérios tanto quantitativos quanto qualitativos considerando aspectos operacionais financeiros e comportamentais dos clientes Além disso objetivase incorporar à metodologia variáveis diretamente relacionadas à lucratividade como o Faturamento 22 Capítulo 1 Introdução e o Custo de Aquisição de Clientes CAC de modo a gerar inferências consistentes e aplicáveis ao indicador Lifetime Value LTV A abordagem busca oferecer suporte técnico e estratégico à operação comercial permitindo decisões mais assertivas sobre prospecção retenção e priorização de contas no ambiente B2B com foco no aumento da rentabilidade e na otimização do relacionamento com os clientes ao longo do tempo 122Objetivos Específicos Serão explorados os seguintes objetivos específicos Identificar a partir da literatura especializada os principais critérios utilizados na segmentação de leads e clientes no ambiente B2B considerando tanto abordagens tradicionais quanto modelos contemporâneos de marketing orientado por dados de forma a compreender como diferentes variáveis demográficas comportamentais financeiras e relacionais influenciam a categorização de perfis de empresas e tomadores de decisão Analisar o conceito de Lifetime Value LTV e sua utilização como métrica orientadora em estratégias de segmentação de clientes com ênfase em sua aplicabilidade prática para estimar o potencial de receita futura orientar investimentos comerciais priorizar contas estratégicas e subsidiar decisões sobre retenção upsell e alocação de recursos Investigar modelos teóricos de pontuação de leads com base em variáveis relacionadas à rentabilidade e ao ciclo de vida do cliente buscando compreender como sistemas de classificação podem apoiar a definição de prioridades de prospecção e engajamento em contextos empresariais com orçamentos limitados e metas de alta conversão Revisar os fundamentos do processo de descoberta de conhecimento em bases de dados KDD e suas aplicações na organização e interpretação de dados analisando cada etapa do fluxo desde a seleção 23 Capítulo 1 Introdução préprocessamento e mineração até a avaliação e visualização de padrões com vistas à geração de insights acionáveis e sustentáveis para uso estratégico no ambiente comercial Examinar à luz de estudos existentes a influência de percepções gerenciais e experiências de mercado na tomada de decisão estratégica em contextos comerciais compreendendo de que maneira fatores subjetivos e heurísticos interagem com os dados quantitativos para formar estratégias híbridas que conciliam análise baseada em evidências com a intuição executiva 13 JUSTIFICATIVA DO TRABALHO A presente dissertação justificase pelo interesse em aprofundar a discussão acadêmica sobre metodologias de segmentação de clientes no contexto B2B com base em métricas de lucratividade como o Lifetime Value LTV Em mercados cada vez mais competitivos e orientados por dados a capacidade de identificar os clientes mais valiosos e direcionar esforços de maneira estratégica tornouse um diferencial crítico para empresas que buscam maximizar o retorno sobre seus investimentos comerciais Nesse sentido a segmentação orientada por valor tem sido amplamente destacada em estudos recentes como uma abordagem eficaz para subsidiar decisões tanto estratégicas quanto operacionais especialmente em setores que demandam racionalização de recursos e gestão otimizada de carteiras de clientes WU et al 2023 WANG et al 2019 A análise da literatura especializada evidencia que as práticas de segmentação com apoio de algoritmos e modelos preditivos vêm se consolidando como importantes ferramentas de suporte técnico à tomada de decisão Em particular a integração desses métodos ao processo de descoberta de conhecimento em bases de dados KDD Knowledge Discovery in Databases amplia significativamente a capacidade de transformar grandes volumes de dados brutos em informações relevantes e acionáveis Essa abordagem conforme discutido por Fayyad et al 1996 Han Kamber e Pei 2011 permite a construção 24 Capítulo 1 Introdução de modelos analíticos robustos com potencial para revelar padrões ocultos no comportamento de clientes e apoiar estratégias comerciais baseadas em evidências Além disso a relevância da presente pesquisa também se justifica pela necessidade de compreender em profundidade como métricas como o CAC Customer Acquisition Cost e o churn taxa de evasão de clientes impactam diretamente na modelagem do LTV influenciando a priorização de ações comerciais e a alocação eficiente de recursos Tais indicadores quando utilizados de forma integrada à segmentação de clientes permitem não apenas projetar o valor futuro das contas existentes mas também identificar os perfis que representam maior risco ou menor retorno otimizando a performance da área de vendas e relacionamento Nesse contexto esta dissertação propõe a estruturação teórica de uma metodologia que considere tanto dados objetivos quantitativos típicos da etapa tática do planejamento quanto percepções subjetivas e gerenciais qualitativas típicas da etapa estratégica conforme referenciado por autores como Kanchanapoom e Chongwatpol 2022 A proposta busca assim refletir a realidade híbrida da gestão comercial que combina métricas precisas com a experiência acumulada dos gestores no trato com o mercado Tratase portanto de um estudo de caráter exploratório baseado em fontes secundárias e fundamentado em uma ampla revisão de literatura científica nacional e internacional Ao abordar a segmentação de clientes orientada à rentabilidade no escopo do modelo B2B esperase que esta pesquisa contribua de forma relevante para o avanço do debate metodológico na área de marketing analítico e inteligência comercial fornecendo subsídios para práticas mais eficientes sustentáveis e alinhadas às exigências do mercado contemporâneo 14 LIMITAÇÕES DO TRABALHO Este estudo apresenta algumas limitações que devem ser consideradas tanto no delineamento da proposta metodológica quanto na análise dos resultados obtidos A seguir são detaladas as principais restrições identificadas no desenvolvimento desta pesquisa 25 Capítulo 1 Introdução Amostra de dados secundários a metodologia proposta foi aplicada a um conjunto de dados secundários de acesso público o que limita a profundidade da análise em relação a setores específicos ou perfis de clientes com características muito particulares Como a base de dados utilizada não foi customizada para os objetivos específicos deste estudo pode haver lacunas em variáveis relevantes ou distorções provocadas pela falta de atualização ou pela forma de coleta dos dados originais Variabilidade das variáveis utilizadas na segmentação a segmentação foi construída com base em um conjunto restrito de variáveis quantitativas como faturamento número de funcionários e métricas simuladas de lucratividade ex LTV Embora essas variáveis sejam amplamente referenciadas na literatura sua adoção representa apenas uma fração das dimensões que poderiam compor o perfil completo de um cliente Aspectos como comportamento de compra histórico de relacionamento ou perfil de decisão foram considerados fora do escopo deste estudo o que pode impactar a riqueza da segmentação Complexidade dos modelos analisados mesmo sem a execução de testes empíricos avançados a compreensão conceitual de técnicas como clusterização análise de agrupamento e métricas preditivas exige certo grau de familiaridade com fundamentos estatísticos e algoritmos de machine learning Essa complexidade técnica pode dificultar a aplicação prática por profissionais de áreas comerciais ou de marketing que não possuem formação especializada em ciência de dados ou análise quantitativa Influência de fatores externos a proposta metodológica assume um contexto de estabilidade relativa nas condições de mercado No entanto fatores macroeconômicos institucionais ou regulatórios como crises econômicas alterações tributárias ou mudanças tecnológicas abruptas podem interferir significativamente nos padrões históricos de comportamento dos clientes afetando a validade dos modelos de segmentação construídos 26 Capítulo 1 Introdução com base em dados anteriores Subjetividade dos insights gerenciais uma parte relevante da análise estratégica deriva da experiência e da interpretação dos gestores o que introduz uma dimensão subjetiva à metodologia Essa variabilidade na percepção pode gerar diferentes conclusões a partir de um mesmo conjunto de dados dificultando a padronização da abordagem e reduzindo sua reprodutibilidade em contextos distintos Resistência à adoção de novos métodos a integração de técnicas de análise de dados ao processo decisório comercial ainda enfrenta resistência em muitas organizações seja por barreiras culturais ausência de infraestrutura tecnológica ou limitação de competências analíticas das equipes Essa resistência pode comprometer a efetividade da implementação prática da metodologia proposta Validade temporal dos dados por fim destacase que a base de dados utilizada representa uma fotografia estática de um determinado momento no tempo Dado o dinamismo dos mercados e a velocidade com que os perfis de consumo e relacionamento se transformam é possível que os agrupamentos e inferências gerados percam validade em curto ou médio prazo se não forem atualizados periodicamente Essa limitação reforça a necessidade de reavaliações frequentes do modelo para garantir sua aderência à realidade comercial vigente 15 ESTRUTURA DO TRABALHO A organização deste trabalho foi planejada de modo a proporcionar uma leitura fluida clara e didática permitindo ao leitor compreender todas as etapas da pesquisa desde a contextualização do problema até os resultados obtidos e suas possíveis aplicações práticas O conteúdo foi estruturado em capítulos que se complementam e oferecem uma visão completa do processo investigativo e da 27 Capítulo 1 Introdução proposta de segmentação de clientes utilizando técnicas de ciência de dados A seguir descrevese detalhadamente a composição de cada capítulo Capítulo 1 Introdução Este capítulo apresenta o contexto geral da pesquisa situando o leitor em relação ao tema estudado e sua relevância no ambiente corporativo especialmente no setor B2B São descritos o problema de pesquisa os objetivos gerais e específicos do estudo bem como sua justificativa com base na importância da segmentação como estratégia para aprimorar a eficiência comercial das empresas Além disso são mencionadas as limitações encontradas no desenvolvimento da pesquisa e é detalhada a estrutura adotada no corpo do trabalho Capítulo 2 Revisão da Literatura Neste capítulo são discutidos os principais conceitos teóricos que fundamentam o estudo reunindo contribuições de autores relevantes na área de marketing ciência de dados e inteligência de negócios A revisão aborda o processo de KDD Knowledge Discovery in Databases destacando etapas como o tratamento e transformação dos dados além da aplicação de técnicas de mineração para fins de classificação e agrupamento São apresentados também os fundamentos da segmentação de clientes com foco nos desafios específicos do mercado B2B e discutidas as métricas CAC Custo de Aquisição de Clientes e LTV Lifetime Value que oferecem base para decisões mais estratégicas nas áreas de vendas e marketing Capítulo 3 Trabalhos Correlatos Esta seção apresenta uma análise comparativa de pesquisas e projetos acadêmicos que abordam temas semelhantes ao proposto neste estudo A identificação de abordagens metodológicas e resultados obtidos por outros autores contribui para validar a relevância do problema estudado além de indicar caminhos já explorados e oportunidades de aprofundamento ainda pouco discutidas na literatura Capítulo 4 Metodologia 28 Capítulo 1 Introdução O capítulo metodológico descreve de forma detalhada os procedimentos adotados para a execução da pesquisa prática São explicadas as etapas de preparação e análise dos dados a escolha do algoritmo KMeans para a clusterização dos clientes e a simulação das métricas de negócio utilizadas para avaliação dos grupos Também são listadas as ferramentas e linguagens de programação utilizadas no processo como Python e bibliotecas como Pandas Scikitlearn e Matplotlib além das justificativas para as decisões tomadas ao longo do desenvolvimento do experimento Capítulo 5 Resultados e Discussão Aqui são apresentados os resultados obtidos com a aplicação do modelo de clusterização com destaque para as características e médias de cada grupo identificado Os dados são discutidos à luz dos objetivos do trabalho evidenciando como a segmentação pode auxiliar na tomada de decisões mais inteligentes no relacionamento com os clientes Também são discutidas as implicações práticas de cada cluster com sugestões de estratégias específicas de atendimento marketing e retenção Conclusão A conclusão retoma os objetivos propostos inicialmente e avalia o grau em que foram atingidos Também são destacados os principais achados do trabalho e suas contribuições para o campo da gestão comercial e da ciência de dados aplicada ao marketing Por fim são apresentadas sugestões de continuidade da pesquisa indicando formas de aprimorar o modelo proposto com o uso de dados mais completos ou técnicas mais avançadas de aprendizado de máquina Referências Esta seção contém a lista completa das obras artigos livros e materiais utilizados ao longo do desenvolvimento da pesquisa devidamente organizados conforme as normas da Associação Brasileira de Normas Técnicas ABNT permitindo que o leitor identifique as fontes consultadas para aprofundamento Anexos 29 Capítulo 1 Introdução Por fim os anexos reúnem os elementos complementares que não foram incluídos no corpo principal do texto por questões de fluidez mas que são importantes para demonstrar a aplicação prática do trabalho como códigosfonte utilizados nas análises tabelas completas gráficos e prints do ambiente de desenvolvimento 30 CAPÍTULO II 2REVISÃO DA LITERATURA 21 PROCESSO DE KNOWLEDGE DISCOVERY IN DATABASE KDD A descoberta de conhecimento em bases de dados conhecida pelo termo em inglês Knowledge Discovery in Databases KDD representa um processo sistemático e interdisciplinar voltado para a extração de informações úteis e conhecimento relevante a partir de grandes volumes de dados Esse processo compreende uma série de etapas interligadas que vão desde a seleção e pré processamento dos dados até a mineração propriamente dita e a posterior interpretação dos padrões extraídos Conforme apontam Han et al 2011 as fases iniciais do KDD incluem a limpeza integração seleção e transformação dos dados que antecedem a aplicação dos algoritmos de mineração voltados à identificação de padrões significativos O crescimento exponencial na geração e armazenamento de dados em diversas áreas do conhecimento tem ampliado significativamente a relevância do KDD A capacidade de transformar dados brutos em conhecimento estratégico tornase essencial para a tomada de decisões orientadas por dados Nesse cenário destacase a necessidade de métodos eficazes para lidar com a complexidade o volume e a variabilidade das informações disponíveis A precisão e a qualidade dos dados tornamse assim elementos centrais para o sucesso do processo de descoberta Dados incompletos inconsistentes ou irrelevantes podem comprometer diretamente os resultados obtidos levando a interpretações errôneas ou a descobertas ineficazes HAN et al 2011 Dessa forma a preparação dos dados é considerada uma etapa crítica no processo de KDD Essa preparação envolve atividades como a limpeza de inconsistências a normalização para uniformização dos formatos e a transformação dos dados em estruturas adequadas para análise Segundo Han et al 2011 a eficácia dos algoritmos de mineração de dados está intrinsecamente ligada à qualidade dos dados que recebem como entrada Portanto uma preparação 31 meticulosa contribui significativamente para garantir que os padrões extraídos sejam confiáveis coerentes e sobretudo úteis no contexto aplicado 32 Capítulo 2 Revisão da Literatura Um exemplo prático da aplicação bemsucedida das técnicas de KDD encontrase no estudo conduzido por Ekstrand et al 2010 que aborda sistemas de recomendação baseados em filtragem colaborativa Nesse estudo os autores demonstram como a análise de grandes volumes de dados sobre o comportamento e as preferências dos usuários pode ser utilizada para gerar sugestões personalizadas em plataformas interativas Essa abordagem não apenas melhora a experiência do usuário mas também otimiza a eficácia dos sistemas de recomendação ressaltando o valor do KDD na personalização e na relevância das informações apresentadas Complementando essa perspectiva Fayyad et al 1996 definem o KDD como um campo interdisciplinar cuja finalidade é extrair conhecimento útil a partir de grandes conjuntos de dados Os autores descrevem o processo como composto por várias etapas fundamentais incluindo a seleção a limpeza o enriquecimento e a transformação dos dados seguidas pela aplicação de algoritmos de mineração para a identificação de padrões relevantes Eles ainda destacam que a importância crescente do KDD está diretamente relacionada ao avanço da tecnologia e à consequente ampliação do volume de dados disponível para análise o que impõe a necessidade de métodos analíticos robustos e eficientes A compreensão detalhada do processo de KDD revela não apenas a complexidade técnica envolvida na manipulação e análise de grandes volumes de dados mas também a necessidade de uma abordagem sistemática e bem estruturada Conforme ilustrado na Figura 01 o KDD é um processo iterativo composto por diversas etapas interdependentes que se iniciam com a seleção dos dados e se estendem até a descoberta e validação de padrões Cada uma dessas etapas contribui para refinar e preparar os dados aumentando progressivamente sua qualidade e potencial analítico A Figura 01 não apenas delimita as fases do KDD mas também evidencia a conexão dinâmica entre elas sugerindo que o processo de descoberta de conhecimento é cíclico e adaptável Isso implica que a cada iteração os dados podem ser reavaliados e ajustados com base nos resultados anteriores promovendo uma melhoria contínua na qualidade da análise Tal abordagem é indispensável em contextos onde a precisão e a relevância das informações extraídas são determinantes para o sucesso de projetos analíticos 33 Capítulo 2 Revisão da Literatura Diante do crescente volume e diversidade de dados disponíveis a aplicação do KDD tornase uma estratégia essencial para organizações que desejam transformar seus dados em insights acionáveis Através de uma análise cuidadosa e estruturada é possível converter grandes quantidades de dados brutos em conhecimento significativo capaz de embasar decisões mais informadas estratégicas e alinhadas aos objetivos organizacionais Nesse sentido a Figura 01 cumpre um papel duplo além de representar visualmente as fases do processo de KDD também atua como um guia conceitual que evidencia a importância da interdependência e do rigor em cada uma das etapas envolvidas na descoberta de conhecimento em bases de dados Figura 1 Uma visão geral das etapas que compõem o processo KDD Fonte Fayyad et al 1996 211 Tratamento de dados A etapa de tratamento de dados dentro do processo de descoberta de conhecimento em bases de dados KDD representa uma fase crítica para assegurar a confiabilidade integridade e usabilidade dos dados que serão utilizados nas etapas subsequentes de análise Esta fase visa preparar os dados de forma a possibilitar que os algoritmos de mineração operem com máxima eficiência e precisão Para isso tornase necessário realizar uma série de procedimentos como 34 Capítulo 2 Revisão da Literatura a identificação e correção de ruídos a resolução de inconsistências e a normalização dos dados Entre as tarefas mais comuns do tratamento de dados destacamse a padronização de formatos o preenchimento ou remoção de valores ausentes a detecção e tratamento de outliers bem como a transformação de variáveis categóricas em representações numéricas adequadas para os modelos analíticos Esses procedimentos são fundamentais não apenas para garantir a qualidade dos dados mas também para aumentar a acurácia dos modelos reduzir o tempo de processamento computacional e evitar distorções nos resultados que possam comprometer a interpretação e aplicação prática dos padrões descobertos Nesse contexto Cheng e Chen 2009 enfatizam que o tratamento e o pré processamento dos dados constituem fatores determinantes para o desempenho de algoritmos de agrupamento especialmente em aplicações voltadas a sistemas de Customer Relationship Management CRM Segundo os autores a eficácia desses algoritmos depende diretamente da qualidade dos dados de entrada uma vez que a presença de ruídos valores extremos ou variáveis mal representadas pode prejudicar a formação de clusters coesos e semanticamente relevantes Assim o sucesso da segmentação de clientes e por consequência das estratégias de marketing orientadas por dados está intrinsecamente ligado à minuciosidade do pré processamento realizado Portanto a etapa de tratamento de dados não deve ser encarada como uma simples etapa preparatória mas como uma fase estratégica que influencia diretamente a qualidade do conhecimento extraído e sua utilidade na tomada de decisão A negligência nesta etapa pode comprometer todo o processo de KDD enquanto sua execução cuidadosa contribui para gerar resultados mais robustos interpretáveis e acionáveis 2111 Eliminando Ruídos E Inconsistências Remover o excesso de informações ruídos e inconsistências representa uma etapa fundamental na preparação dos dados para o processo de Knowledge 35 Capítulo 2 Revisão da Literatura Discovery in Databases KDD uma vez que dados imprecisos ou com baixa qualidade podem comprometer significativamente os resultados obtidos nas etapas subsequentes de mineração e análise A presença de valores duplicados erros de entrada lacunas ou informações incoerentes tende a distorcer os padrões e correlações descobertos levando a decisões equivocadas e interpretações falhas Além disso quanto maior o volume de dados e mais diversas as fontes envolvidas maior a complexidade dos problemas de qualidade que podem surgir exigindo metodologias mais robustas para sua resolução De acordo com Han Kamber e Pei 2011 o préprocessamento dos dados é composto por diversas técnicas incluindo o preenchimento de valores ausentes a suavização de ruídos a correção de inconsistências a detecção e remoção de outliers além da padronização e transformação de atributos Essas etapas são essenciais para garantir a integridade a completude e a utilidade do conjunto de dados antes de sua exploração analítica A negligência nessa fase pode comprometer a construção de modelos de aprendizado gerar viés nos resultados e dificultar a replicabilidade dos experimentos analíticos afetando diretamente a tomada de decisões Entre os métodos mais comuns de suavização destacamse os filtros de média e mediana que substituem valores individuais por médias ou medianas calculadas a partir de seus vizinhos mais próximos reduzindo assim a variabilidade aleatória Já a suavização por binning agrupa os dados em intervalos bins e ajusta os valores com base em estatísticas internas de cada intervalo promovendo homogeneidade local A suavização por regressão por sua vez ajusta uma função matemática linear ou não linear aos dados permitindo a identificação e atenuação de tendências ou flutuações acentuadas Essas técnicas são particularmente úteis em conjuntos de dados com alta variabilidade como séries temporais financeiras dados de sensores ou registros de comportamento de usuários A detecção de outliers é outra etapa crítica pois esses valores atípicos podem interferir negativamente nos resultados dos modelos estatísticos e algoritmos de aprendizado de máquina Métodos estatísticos convencionais baseados em medidas de tendência central e dispersão como média e desvio padrão são frequentemente utilizados para identificar e remover esses pontos anômalos 36 Capítulo 2 Revisão da Literatura Contudo técnicas mais avançadas como o algoritmo DBSCAN DensityBased Spatial Clustering of Applications with Noise proposto por Ester et al 1996 têm se mostrado eficazes para detectar outliers em grandes volumes de dados multidimensionais pois consideram a densidade local de pontos ao invés de simples critérios globais A combinação de métodos estatísticos e algoritmos de aprendizado não supervisionado é em muitos casos recomendada para garantir maior precisão na detecção desses casos extremos Além disso inconsistências nos dados muitas vezes resultantes da fusão de diferentes bases de dados erros de digitação ou atualizações mal conduzidas devem ser tratadas por meio de inspeções manuais validações cruzadas e aplicação de regras de integridade baseadas no domínio dos dados Isso inclui a verificação de chaves primárias integridade referencial formatos esperados e padrões semânticos consistentes O uso de ferramentas automatizadas de data cleaning também tem ganhado espaço especialmente em contextos que envolvem grandes volumes de dados e necessidade de escalabilidade Ferramentas como Talend Trifacta e Apache Nifi vêm sendo amplamente adotadas para automatizar processos de limpeza enriquecimento e integração de dados em pipelines modernas de engenharia de dados Complementando esse panorama Do e Batzoglou 2008 em estudos voltados para bioinformática destacam a importância da normalização e padronização como elementos fundamentais para garantir a comparabilidade entre conjuntos de dados heterogêneos Essas técnicas ajustam os dados para uma escala comum prevenindo que atributos com magnitudes diferentes dominem o processo de mineração A normalização é especialmente importante em algoritmos baseados em distância como kmeans redes neurais e máquinas de vetor de suporte nos quais variáveis em escalas distintas podem afetar desproporcionalmente a formação de padrões e decisões de agrupamento No campo dos sistemas de recomendação Ekstrand Riedl e Konstan 2010 demonstram como abordagens sofisticadas de filtragem de dados incluindo técnicas baseadas em conteúdo e colaborativas dependem fortemente da qualidade e coerência dos dados de entrada Uma base mal preparada pode gerar recomendações irrelevantes ou enviesadas prejudicando a experiência do usuário e reduzindo a eficácia dos sistemas inteligentes Nesses cenários a etapa de 37 Capítulo 2 Revisão da Literatura tratamento e préprocessamento influencia diretamente a confiabilidade dos sistemas e sua aceitação por parte dos usuários finais Assim a manipulação criteriosa e sistemática das informações tornase essencial não apenas para garantir a acurácia dos modelos e interpretações derivadas da mineração de dados mas também para assegurar a reprodutibilidade dos resultados e sua aplicabilidade em contextos reais A qualidade dos dados está diretamente relacionada à capacidade da organização de extrair conhecimento confiável relevante e acionável contribuindo de forma decisiva para a orientação estratégica e a geração de vantagem competitiva sustentada O investimento em boas práticas de preparação de dados deve ser encarado como parte fundamental da cultura analítica das empresas impactando diretamente os resultados de curto e longo prazo Em síntese a preparação adequada dos dados não é uma etapa acessória mas sim uma condição sine qua non para o sucesso de qualquer projeto baseado em análise de dados No contexto corporativo essa etapa representa a base sobre a qual serão construídas as estratégias analíticas e preditivas justificando o investimento em processos e ferramentas que garantam a excelência na gestão da informação A negligência nesse estágio pode comprometer toda a cadeia de valor analítico enquanto sua execução cuidadosa abre caminho para decisões mais eficazes processos mais eficientes e inovação orientada por dados 2112 Tratando Valores Ausentes O correto tratamento de dados ausentes é uma etapa essencial no processo de preparação de dados para o Knowledge Discovery in Databases KDD pois assegura a qualidade consistência e integridade do conjunto de dados Dados faltantes se não tratados adequadamente podem comprometer a validade das análises estatísticas distorcer resultados e consequentemente impactar negativamente a eficácia dos modelos de mineração de dados Assim é fundamental adotar abordagens criteriosas e fundamentadas para a identificação análise e tratamento dessas lacunas garantindo que as inferências obtidas sejam 38 Capítulo 2 Revisão da Literatura confiáveis e representativas A negligência nesse aspecto compromete não apenas a robustez dos modelos mas também a confiança nas decisões baseadas em dados o que é especialmente crítico em ambientes empresariais e científicos A primeira etapa crítica consiste na identificação da existência e da distribuição dos valores ausentes no banco de dados Isso envolve a quantificação do volume de dados faltantes por variável e a localização exata de onde ocorrem essas ausências Essa análise inicial fornece uma visão geral da extensão do problema e auxilia na definição de estratégias apropriadas de imputação ou eliminação de registros quando necessário Ferramentas como mapas de calor e gráficos de dispersão podem ser utilizadas para visualizar as lacunas de forma clara permitindo um diagnóstico mais assertivo e facilitando a comunicação com stakeholders Posteriormente tornase imprescindível realizar uma análise do padrão de ocorrência dos dados ausentes Essa análise visa determinar se os dados estão ausentes completamente ao acaso Missing Completely at Random MCAR ausentes ao acaso Missing at Random MAR ou ausentes de forma não aleatória Not Missing at Random NMAR A identificação desse padrão é decisiva para a seleção da técnica de tratamento mais eficaz Por exemplo se os dados estão ausentes de forma sistemática isso pode refletir vieses no processo de coleta falhas de instrumentação ou ainda uma relação estrutural com outras variáveis do conjunto de dados Compreender o mecanismo de ausência permite reduzir o risco de interpretações equivocadas além de melhorar a precisão dos modelos preditivos Riedl e Konstan 2011 ao analisarem os impactos dos valores ausentes em sistemas de recomendação ressaltam que a ausência de dados pode afetar diretamente a capacidade de personalização desses sistemas Os autores destacam que dados incompletos reduzem a acurácia das recomendações além de comprometer a robustez e a equidade dos algoritmos especialmente em abordagens colaborativas que dependem fortemente da completude das interações entre usuários e itens Isso evidencia como o tratamento adequado de dados ausentes não é apenas uma questão técnica mas uma necessidade funcional para garantir a performance e confiabilidade de sistemas inteligentes 39 Capítulo 2 Revisão da Literatura Entre as estratégias mais empregadas para lidar com dados ausentes destacamse Imputação por média mediana ou moda utilizada em situações de baixa complexidade onde os valores ausentes são substituídos por estatísticas simples de tendência central É uma abordagem eficiente em bases com pequenas proporções de ausência e pouca variabilidade Imputação por regressão quando há uma relação identificável entre a variável ausente e outras variáveis do conjunto é possível estimar os valores ausentes com base em modelos de regressão linear ou múltipla mantendo maior coerência estatística entre os atributos Técnicas de aprendizado de máquina como kNearest Neighbors kNN e redes neurais também são aplicadas para imputar valores com base em padrões complexos de similaridade ou aprendizado supervisionado sendo úteis para bases com estrutura multidimensional e interdependência entre variáveis Eliminação de registros ou variáveis adotada quando a quantidade de dados ausentes é suficientemente pequena para não comprometer a integridade do conjunto ou quando a variável não possui relevância significativa para o objetivo do modelo Tratase de uma solução prática mas deve ser aplicada com cautela para evitar perda de informação relevante Modelos múltiplos de imputação como o Multiple Imputation by Chained Equations MICE considerados mais sofisticados permitem a geração de múltiplos conjuntos imputados incorporando a variabilidade e incerteza associadas ao processo Essa abordagem melhora a validade estatística das análises posteriores especialmente em estudos inferenciais A escolha da técnica de tratamento mais adequada deve considerar não apenas a proporção de dados faltantes mas também o contexto analítico a estrutura das variáveis e o impacto potencial sobre os resultados Um tratamento 40 Capítulo 2 Revisão da Literatura inadequado pode introduzir viés mascarar relações reais ou gerar interpretações enganosas Por isso é importante realizar testes comparativos entre métodos de imputação e avaliar os efeitos em métricas de desempenho dos modelos subsequentes Ademais o tratamento de dados ausentes deve ser documentado de forma transparente para garantir a rastreabilidade e reprodutibilidade dos resultados Em ambientes corporativos onde decisões estratégicas são tomadas com base em análises preditivas negligenciar essa etapa pode acarretar prejuízos operacionais e financeiros significativos A adoção de uma política de governança de dados com protocolos claros para tratamento de lacunas tornase um diferencial competitivo e de conformidade Portanto a gestão criteriosa de dados faltantes é uma prática indispensável no ciclo de vida da ciência de dados Quando bem executada ela assegura a fidelidade das análises potencializa a acurácia dos modelos e contribui para a geração de conhecimento de alto valor agregado alinhado às metas organizacionais e à realidade dos negócios Tratase de uma etapa que embora muitas vezes invisível aos olhos do usuário final sustenta toda a credibilidade e aplicabilidade dos resultados analíticos sendo essencial para o sucesso de qualquer projeto orientado por dados 2113 Normalização Dos Dados A normalização dos dados constitui uma etapa essencial no processo de preparação de dados assegurando que os atributos estejam expressos em escalas compatíveis e adequadas para posterior análise estatística e modelagem computacional Este procedimento visa padronizar os valores dos atributos numéricos de modo que todos tenham igual influência sobre os algoritmos de mineração de dados e aprendizado de máquina Sem essa padronização variáveis com escalas numericamente mais amplas podem dominar o processo de análise conduzindo a resultados enviesados e interpretações equivocadas Esse problema é especialmente crítico em algoritmos que dependem de métricas de distância como a distância euclidiana empregada em métodos de 41 Capítulo 2 Revisão da Literatura clusterização ex kmeans e classificação ex kNN Por exemplo em um conjunto de dados que inclui variáveis como faturamento anual em milhões e número de funcionários em dezenas a variável com maior escala tenderá a influenciar desproporcionalmente os resultados caso não haja um reescalonamento adequado A normalização nesse caso garante que cada atributo contribua de forma equitativa no cálculo das distâncias preservando a integridade analítica do modelo Entre as principais motivações para normalizar os dados destacamse A eliminação de unidades heterogêneas que é crucial em contextos onde variáveis são expressas em unidades diferentes por exemplo metros reais porcentagens Essa heterogeneidade se não tratada compromete a comparabilidade entre atributos A melhoria da convergência de algoritmos de otimização como o gradiente descendente utilizado em redes neurais e regressão logística que tende a alcançar soluções ótimas mais rapidamente quando os dados estão em escalas semelhantes O balanceamento entre variáveis garantindo que nenhuma variável domine o modelo apenas por apresentar valores numéricos mais elevados A ausência da normalização pode impactar diretamente a eficácia dos modelos levando a previsões imprecisas instabilidade nos parâmetros estatísticos e dificuldade na extração de conhecimento útil o que compromete a qualidade das decisões estratégicas baseadas em dados No contexto de modelos de gestão de receita por exemplo Cao et al 2023 reforçam a importância da normalização como etapa fundamental para a correta aplicação de modelos logísticos multinomiais os quais são amplamente utilizados para prever comportamentos de compra A normalização segundo os autores não apenas facilita a modelagem e interpretação como também aumenta a robustez e a precisão das estimativas especialmente em bases de dados heterogêneas e de alta variabilidade Conforme discutido por Han et al 2011 várias técnicas podem ser aplicadas para normalizar os dados sendo escolhidas de acordo com as características 42 Capítulo 2 Revisão da Literatura específicas da base de dados e os objetivos da análise Entre as abordagens mais comuns destacamse Escalonamento MinMax Redimensiona os valores para um intervalo prédefinido geralmente 0 1 É apropriado quando os dados não apresentam valores extremos significativos pois outliers podem distorcer o resultado do reescalonamento Padronização ZScore Transforma os dados para que tenham média zero e desvio padrão um tornandoos compatíveis com algoritmos que assumem distribuição normal dos dados É uma técnica amplamente utilizada quando se espera simetria estatística Normalização pelo Máximo Absoluto Reescala os dados com base no valor absoluto máximo de modo que todos os valores estejam entre 1 e 1 Essa abordagem é útil para dados esparsos frequentemente encontrados em aplicações de aprendizado profundo e processamento de linguagem natural Escalonamento Robusto Robust Scaler Baseado na mediana e no intervalo interquartil IQR essa técnica é especialmente eficaz na presença de outliers pois é menos sensível a valores extremos É indicada para bases de dados reais onde a presença de anomalias é comum e a robustez estatística é desejável Cada uma dessas técnicas apresenta vantagens e limitações específicas e a escolha apropriada depende tanto das propriedades estatísticas da base de dados quanto do modelo analítico a ser utilizado Ignorar essa etapa pode não apenas reduzir a performance computacional do modelo mas também comprometer seriamente a qualidade e confiabilidade das inferências realizadas a partir dos dados Em síntese a normalização é uma etapa estratégica e indispensável no ciclo de vida da ciência de dados Ao assegurar uma base de dados homogênea balanceada e escalonada ela melhora o desempenho dos modelos analíticos evita distorções nas análises e fortalece a precisão das previsões e a interpretação dos resultados obtidos Dessa forma contribui diretamente para o sucesso das iniciativas de mineração de dados descoberta de conhecimento e tomada de decisão baseada em evidências 43 Capítulo 2 Revisão da Literatura 2114 Outliers BOXPLOT Os valores atípicos também conhecidos como outliers são observações que se desviam significativamente do padrão geral de um conjunto de dados Esses valores extremos podem surgir por diferentes razões como erros de mensuração falhas na entrada de dados flutuações experimentais ou em muitos casos características genuínas e relevantes que refletem fenômenos incomuns ou exceções significativas WASSERMAN 2020 Embora os outliers possam representar ruídos que distorcem a análise também podem oferecer informações importantes quando contextualizados corretamente Sua presença portanto deve ser avaliada com cautela considerando não apenas a natureza estatística da anomalia mas também sua possível relevância para o domínio de aplicação A presença de outliers tem um impacto direto sobre a qualidade das análises estatísticas e a confiabilidade dos modelos preditivos Eles podem influenciar métricas de tendência central como média e dispersão como desvio padrão enviesar modelos de regressão e comprometer o desempenho de algoritmos de aprendizado de máquina Em particular Cao et al 2023 demonstram que a remoção ou o tratamento adequado de outliers é essencial em modelos de previsão de demanda e gestão de receita que combinam estruturas de demanda independentes com modelos logit multinomial O estudo destaca como a presença de outliers pode levar à subestimação ou superestimação de demanda impactando negativamente a eficiência de decisões estratégicas como precificação e alocação de recursos Isso mostra que ignorar a existência de valores extremos pode acarretar sérias consequências na prática especialmente em contextos onde a acurácia dos dados é vital para decisões operacionais Para a detecção de outliers uma das ferramentas gráficas mais eficientes e amplamente utilizadas é o boxplot ou gráfico de caixa e bigodes Esse gráfico oferece uma representação visual da distribuição dos dados com base em medidas resumo como os quartis mediana mínimo e máximo e permite a identificação objetiva de valores discrepantes O Intervalo Interquartil IQR calculado como a diferença entre o terceiro quartil Q3 e o primeiro quartil Q1 é usado como base 44 Capítulo 2 Revisão da Literatura para definir os limites dos chamados bigodes do boxplot Valores que se encontram fora do intervalo compreendido entre Q1 15IQR e Q3 15IQR são considerados potenciais outliers e geralmente são destacados no gráfico por pontos individuais KRISHNAMURTHY DESHPANDE 2022 ZUUR IENO ELPHICK 2019 A simplicidade e clareza visual do boxplot o tornam especialmente valioso para análises exploratórias iniciais permitindo decisões rápidas quanto à necessidade de intervenções mais aprofundadas nos dados A análise gráfica por meio de boxplots é especialmente útil durante a fase de exploração de dados no processo de Knowledge Discovery in Databases KDD uma vez que permite uma rápida identificação de anomalias antes da aplicação de técnicas mais robustas de modelagem Em contextos de negócios saúde engenharia ou ciências sociais os outliers podem representar tanto riscos analíticos quanto oportunidades de descoberta dependendo de como são interpretados Em alguns casos esses valores extremos podem sinalizar mudanças importantes no comportamento dos dados revelando tendências emergentes ou eventos de alto impacto que merecem atenção especial Adicionalmente métodos estatísticos como o teste de Grubbs zscore padronizado e técnicas de clusterização como DBSCAN também são amplamente utilizados para detectar outliers em grandes volumes de dados O DBSCAN por exemplo identifica pontos que não pertencem a regiões de alta densidade sendo eficaz na detecção de outliers em conjuntos de dados multidimensionais Com o avanço da ciência de dados têmse adotado abordagens híbridas que combinam estatística clássica com algoritmos de aprendizado de máquina para classificar ponderar e até mesmo corrigir ou imputar valores discrepantes com maior grau de confiabilidade HAN et al 2011 Essas estratégias visam não apenas identificar mas também integrar inteligentemente os outliers ao processo analítico seja por meio de exclusão justificada ou pela adaptação dos modelos para lidar com essas variações Dessa forma a gestão criteriosa de outliers tornase uma etapa estratégica para garantir resultados analíticos mais robustos coerentes e aplicáveis em diferentes domínios 45 Capítulo 2 Revisão da Literatura 21141 Estrutura E Componentes De Um Boxplot O boxplot também conhecido como gráfico de caixa e bigodes boxand whisker plot é uma ferramenta gráfica amplamente utilizada na estatística exploratória para representar de forma sintética a distribuição de um conjunto de dados Sua principal função é apresentar visualmente cinco medidasresumo fundamentais valor mínimo primeiro quartil Q1 mediana Q2 terceiro quartil Q3 e valor máximo permitindo observar a dispersão a simetria e a presença de possíveis valores atípicos outliers em um conjunto de dados PAGANO GAUVREAU 2018 Essa técnica oferece uma visão clara da variabilidade dos dados e da densidade em torno dos quartis sendo particularmente eficaz na comparação entre distribuições distintas ou na identificação de assimetrias e desvios A seguir detalhamse os principais elementos constituintes do boxplot Mediana Q2 Representada por uma linha horizontal localizada dentro da caixa a mediana corresponde ao segundo quartil ou seja o ponto que separa os 50 inferiores dos 50 superiores dos dados É uma medida robusta de tendência central menos sensível a valores extremos do que a média aritmética FIELD MILES FIELD 2017 Caixa Q1 a Q3 A estrutura retangular do gráfico compreende a faixa entre o primeiro quartil Q1 25 dos dados e o terceiro quartil Q3 75 dos dados Esse intervalo denominado amplitude interquartil IQR Interquartile Range representa os 50 centrais dos dados excluindo os extremos inferiores e superiores A IQR é uma medida fundamental de dispersão eficaz para caracterizar a variabilidade dos dados sem a influência de outliers WASSERMAN 2020 WICKHAM GROLEMUND 2017 Bigodes Whiskers Os bigodes se estendem a partir das extremidades da caixa até os limites inferiores e superiores definidos como 15 vezes a IQR abaixo de Q1 e acima de Q3 Valores dentro desses limites são considerados normais na distribuição dos dados KRISHNAMURTHY DESHPANDE 46 Capítulo 2 Revisão da Literatura 2022 A extensão dos bigodes ajuda a visualizar a cauda da distribuição e identificar a assimetria Valores Atípicos Outliers Dados que se encontram fora dos limites dos bigodes são identificados como outliers e geralmente são representados por círculos asteriscos ou outros símbolos Esses valores podem indicar erros de medição registros incorretos ou fenômenos reais fora da distribuição esperada e merecem investigação especial pois podem influenciar de forma significativa análises estatísticas e decisões baseadas em dados ZUUR IENO ELPHICK 2019 Valores Mínimos e Máximos dentro dos limites Os extremos inferiores e superiores que ainda se encontram dentro dos limites definidos pelos bigodes representam os menores e maiores valores considerados regulares na distribuição Eles delimitam a cauda do conjunto de dados sem incluir os pontos considerados atípicos KABACOFF 2021 Além de sua simplicidade visual o boxplot é especialmente útil em contextos comparativos como quando se deseja analisar diferentes grupos ou categorias de uma variável Ao permitir a visualização simultânea de mediana dispersão e simetria o gráfico de caixa e bigodes tornase uma ferramenta indispensável em análises exploratórias diagnósticos estatísticos e em aplicações que envolvem a limpeza e validação de dados como no processo de Knowledge Discovery in Databases KDD A Figura 2 demonstra como as informações são visualmente dispostas Figura 2 Boxplot 47 Capítulo 2 Revisão da Literatura Fonte Adaptado pelo autor 2025 Os boxplots são ferramentas eficazes para a identificação de outliers análise de distribuição e comparação entre grupos de dados Neles os outliers são facilmente identificados como pontos fora dos bigodes facilitando a visualização de anomalias Além disso o boxplot permite uma rápida visualização da distribuição dos dados evidenciando a presença de simetria ou assimetria Ao comparar boxplots de diferentes grupos é possível identificar diferenças significativas na distribuição e na presença de outliers entre os grupos Ao usar boxplots é possível visualizar claramente como os outliers podem influenciar a distribuição dos dados Por exemplo a presença de outliers pode distorcer a média puxandoa para cima ou para baixo Outliers também aumentam a variabilidade aparente dos dados refletida pelo comprimento dos bigodes do boxplot Identificar e tratar outliers pode levar a decisões mais informadas e precisas melhorando a qualidade das análises e previsões 2115 Uso Do Python No contexto acadêmico e científico contemporâneo o Python consolidouse como uma das principais linguagens de programação utilizadas para preparação análise e modelagem de dados sendo amplamente adotado em atividades de pesquisa ensino e desenvolvimento tecnológico Sua ascensão é atribuída à combinação de fatores como sintaxe intuitiva grande comunidade de 48 Capítulo 2 Revisão da Literatura desenvolvedores e um ecossistema robusto de bibliotecas especializadas para ciência de dados estatística aprendizado de máquina e inteligência artificial Segundo o Times Higher Education World University Rankings 2023 o Python é reconhecido como a linguagem padrão em 92 das 100 melhores universidades do mundo nos cursos de ciência de dados estatística aplicada engenharia da computação e áreas afins Esse dado evidencia sua consolidação não apenas como ferramenta de ensino mas também como plataforma técnica de referência na produção científica global A aplicabilidade do Python se destaca em particular nas diferentes etapas da descoberta de conhecimento em bases de dados KDD Knowledge Discovery in Databases desempenhando um papel estratégico em tarefas como Extração de dados de fontes estruturadas e não estruturadas Limpeza e transformação de dados brutos Análise exploratória e visualização gráfica Modelagem estatística e preditiva Validação e interpretação dos resultados Sua compatibilidade com ambientes interativos como o Jupyter Notebook permite uma abordagem altamente modular e reprodutível essencial tanto para ensino prático quanto para a validação científica de experimentos Essa flexibilidade favorece também o desenvolvimento colaborativo a documentação automatizada do processo analítico e a replicabilidade dos estudos Além do domínio acadêmico o Python expandiu significativamente sua presença no setor corporativo sendo utilizado por empresas dos mais diversos setores para construção de pipelines de dados automatizados sistemas de recomendação análises preditivas e modelos de machine learning em escala industrial Essa penetração no mercado profissional torna o Python uma ponte entre a formação acadêmica e as demandas do mundo corporativo representando uma vantagem competitiva significativa para profissionais da área como cientistas de dados engenheiros de machine learning analistas quantitativos e gestores de dados 49 Capítulo 2 Revisão da Literatura Sua capacidade de integrarse a outras linguagens como R C SQL e Java e plataformas como Hadoop Spark TensorFlow e AWS amplia ainda mais suas possibilidades de uso permitindo desde operações simples de tratamento de dados até implementações avançadas de inteligência artificial deep learning e mineração de dados em tempo real Dessa forma a adoção do Python no ciclo de vida da ciência de dados contribui de maneira decisiva para a adequação e qualidade dos dados para a construção de modelos robustos e para a extração de conhecimento acionável Sua utilização promove eficiência computacional transparência no processo analítico e agilidade na entrega de insights valores indispensáveis tanto na pesquisa científica quanto na análise de dados aplicada a negócios A seguir destacamse algumas das principais bibliotecas do ecossistema Python e suas funcionalidades essenciais evidenciando o papel central dessas ferramentas na manipulação eficaz análise e modelagem de dados 21151 Pandas A biblioteca Pandas criada por Wes McKinney em 2010 rapidamente se estabeleceu como uma das ferramentas mais influentes e amplamente utilizadas no ecossistema Python para ciência de dados análise estatística e manipulação de dados estruturados Seu desenvolvimento teve como objetivo suprir uma lacuna na linguagem Python em relação à manipulação eficiente de grandes volumes de dados especialmente em aplicações que demandam o tratamento de séries temporais e dados tabulares numéricos McKINNEY 2010 Desde seu lançamento Pandas tornouse uma ferramenta essencial tanto no meio acadêmico quanto no setor empresarial sendo parte fundamental dos fluxos de trabalho de projetos de KDD Knowledge Discovery in Databases Sua popularidade devese à sua capacidade de simplificar operações complexas de tratamento e análise de dados além de sua sintaxe intuitiva desempenho robusto e ampla compatibilidade com outras bibliotecas do ecossistema científico Python Entre suas funcionalidades centrais destacamse duas estruturas de dados fundamentais 50 Capítulo 2 Revisão da Literatura DataFrame estrutura bidimensional semelhante a uma planilha composta por colunas rotuladas e com tipos de dados possivelmente heterogêneos Permite visualização filtragem e manipulação de dados com alta flexibilidade Series estrutura unidimensional comparável a um vetor indexado adequada para manipulação de uma única variável ou coluna de dados Essas abstrações proporcionam ao analista um modelo de dados altamente expressivo capaz de representar conjuntos complexos de informações de forma acessível e organizada favorecendo desde tarefas de exploração inicial dos dados até operações mais sofisticadas de engenharia de atributos A biblioteca também se destaca por seu suporte abrangente à leitura e gravação de dados em múltiplos formatos como CSV Excel JSON HDF5 Parquet e conexões com bancos relacionais via SQL Essa funcionalidade é crítica em contextos de integração de dados heterogêneos permitindo interoperabilidade entre sistemas e facilitando a ingestão de dados em projetos de Business Intelligence ETL Extract Transform Load e análise de grandes volumes de dados McKINNEY 2010 Além disso Pandas oferece um conjunto extensivo de operações para limpeza transformação e estruturação dos dados tais como Seleção e indexação por rótulos ou posições Filtragem condicional e aplicação de expressões booleanas Ordenação e reorganização de colunas ou linhas Criação de colunas derivadas com base em transformações Substituição de valores mapeamentos categóricos e conversão de tipos de dados Reestruturação de dados com técnicas de pivotamento pivot e desempilhamento meltunstack Essas operações tornamse particularmente úteis nas etapas de pré processamento de dados que antecedem a aplicação de algoritmos de modelagem estatística ou aprendizado de máquina 51 Capítulo 2 Revisão da Literatura Outro recurso poderoso da biblioteca é a função groupby que permite o agrupamento e agregação de dados com base em categorias específicas Essa funcionalidade é amplamente empregada em análises comparativas construção de estatísticas descritivas por grupo identificação de padrões em diferentes níveis hierárquicos e produção de indicadores sumarizados O tratamento de valores ausentes NaN uma das etapas mais críticas na preparação dos dados também é eficientemente gerenciado pelo Pandas por meio de métodos como fillna preenchimento com média mediana ou valores arbitrários dropna remoção de entradas incompletas e técnicas de interpolação o que confere à biblioteca ampla capacidade de lidar com lacunas e inconsistências nos dados comuns em bases reais Pandas ainda disponibiliza métodos para mesclagem e junção de datasets como merge join e concat que permitem combinar múltiplas fontes de informação com base em chaves compartilhadas ou critérios personalizados Essas operações são cruciais para a construção de bases consolidadas principalmente em cenários de data integration e data fusion Sua interoperabilidade com bibliotecas como NumPy operações numéricas vetoriais Matplotlib e Seaborn visualização de dados Scikitlearn machine learning e Statsmodels modelagem estatística transforma o Pandas em uma ferramenta central em pipelines de análise e descoberta de conhecimento A biblioteca é também compatível com ambientes como Jupyter Notebook e plataformas de cloud computing o que facilita sua adoção em ambientes colaborativos e escaláveis Em síntese o Pandas não é apenas uma biblioteca de apoio à análise de dados mas um pilar estratégico em todo o processo de descoberta de conhecimento desde a ingestão e preparação dos dados até a geração de insights interpretáveis Sua adoção generalizada aliada a uma documentação extensa e uma comunidade ativa de desenvolvedores e usuários evidencia seu papel como ferramenta indispensável na prática moderna da ciência de dados e em projetos orientados à extração de valor a partir de dados estruturados 52 Capítulo 2 Revisão da Literatura 21152 Numpy A biblioteca NumPy Numerical Python representa um dos pilares fundamentais no ecossistema de ciência de dados e computação científica com Python Desenvolvida inicialmente por Travis Oliphant a partir do projeto Numeric e formalizada como biblioteca independente em meados dos anos 2000 o NumPy é atualmente mantido como projeto de código aberto e amplamente apoiado por comunidades acadêmicas e industriais Conforme destacado por Harris et al 2020 sua adoção generalizada se deve à sua eficiência computacional versatilidade matemática e à sua posição como base para a maioria das bibliotecas científicas da linguagem Python No contexto da descoberta de conhecimento em bases de dados KDD Knowledge Discovery in Databases o NumPy tem papel estratégico sobretudo nas etapas de representação transformação análise quantitativa e préprocessamento de dados Sua principal estrutura o ndarray Ndimensional array permite a criação e manipulação de arrays homogêneos multidimensionais possibilitando a execução de operações matemáticas complexas com alto desempenho e baixo custo computacional Ao substituir as listas nativas do Python que são menos eficientes para manipulações numéricas o ndarray oferece melhorias significativas em velocidade escalabilidade e uso de memória atributos cruciais em aplicações que lidam com grandes volumes de dados numéricos Entre as funcionalidades centrais do NumPy destacamse Criação e manipulação de arrays multidimensionais com suporte a operações de slicing reshaping flattening indexação lógica e booleana Um conjunto abrangente de operações matemáticas e estatísticas vetorizadas como soma produto escalar exponenciação médias desvio padrão mediana e variância Recursos de álgebra linear avançada via numpylinalg como decomposição matricial inversão de matrizes autovalores e solução de sistemas lineares Transformadas de Fourier funções trigonométricas e hiperbólicas 53 Capítulo 2 Revisão da Literatura Geração de números aleatórios com distribuições variadas uniforme normal binomial entre outras por meio do módulo numpyrandom Um dos grandes diferenciais da biblioteca reside em sua capacidade de vetorização que permite aplicar operações matemáticas diretamente sobre arrays inteiros sem a necessidade de laços loops explícitos Esse paradigma não só simplifica o código promovendo maior clareza e concisão como também oferece ganhos expressivos de desempenho uma vez que as operações vetorizadas são implementadas internamente em linguagem C o que garante baixa latência e alta eficiência computacional Outro recurso de grande valor é o broadcasting mecanismo que viabiliza a realização de operações aritméticas entre arrays de diferentes formas shapes sem a necessidade de cópias redundantes ou expansões explícitas Esse recurso é amplamente empregado em modelagem matemática simulações numéricas redes neurais e processamento vetorial sendo particularmente útil em contextos de grande escala e alta dimensionalidade A interoperabilidade do NumPy com outras bibliotecas de ciência de dados é um dos fatores que reforçam sua centralidade no ecossistema Python Ele constitui a base numérica para ferramentas como Pandas manipulação de dados tabulares Matplotlib e Seaborn visualização de dados Scikitlearn aprendizado de máquina além de frameworks de deep learning como TensorFlow Keras e PyTorch Essa interconectividade permite que pipelines analíticos e modelos estatísticos usufruam da robustez matemática do NumPy como infraestrutura de baixo nível O NumPy também tem aplicações significativas em domínios como Engenharia e Física Computacional para simulações de sistemas dinâmicos e análise de séries temporais Economia quantitativa e finanças com suporte a operações vetoriais e estatísticas robustas Imagens e sinais digitais com operações matriciais e filtros convolucionais Inteligência artificial e machine learning onde sua performance é fundamental para o treinamento eficiente de modelos em larga escala 54 Capítulo 2 Revisão da Literatura Em suma o NumPy constitui um componente estrutural essencial para a ciência de dados moderna promovendo uma base sólida para a manipulação matemática e estatística de dados em larga escala Sua eficiência combinada com sua flexibilidade e integração com outras ferramentas justifica sua adoção massiva nos mais diversos campos do saber e sua posição de destaque nas fases iniciais do processo de KDD especialmente na exploração e preparação quantitativa dos dados Assim para qualquer iniciativa séria de análise de dados com Python o domínio do NumPy é não apenas recomendável mas absolutamente indispensável 21153ScikitLearn A biblioteca Scikitlearn é uma das principais ferramentas disponíveis no ecossistema Python para a implementação de técnicas de aprendizado de máquina machine learning Desenvolvida originalmente por Pedregosa et al 2011 ela oferece uma interface unificada e de fácil utilização para uma ampla gama de algoritmos de aprendizado supervisionado e não supervisionado além de ferramentas complementares para avaliação validação e otimização de modelos preditivos Sua popularidade se deve não apenas à robustez de seus algoritmos mas também à facilidade de integração com bibliotecas como NumPy SciPy Pandas e Matplotlib permitindo fluxos de trabalho consistentes reprodutíveis e escaláveis em ciência de dados Um dos principais diferenciais do Scikitlearn é sua modularidade e integração harmoniosa com bibliotecas fundamentais para o processamento numérico e manipulação de dados Essa arquitetura modular permite a construção de pipelines robustos que englobam desde o préprocessamento até a avaliação e refinamento de modelos preditivos Isso torna possível testar e comparar diferentes abordagens de forma sistemática e organizada característica essencial em ambientes acadêmicos e corporativos que demandam experimentação rigorosa As principais funcionalidades da biblioteca incluem Implementação de algoritmos de aprendizado supervisionado como regressão linear regressão logística máquinas de vetor de suporte SVM árvores de decisão florestas aleatórias random forest e redes neurais 55 Capítulo 2 Revisão da Literatura artificiais simples Esses algoritmos são aplicáveis a tarefas de classificação por exemplo prever a categoria de um cliente e regressão como prever o valor de uma venda ou temperatura A versatilidade dos modelos permite sua utilização em diversos domínios como finanças marketing saúde e educação Modelos de aprendizado não supervisionado como kmeans DBSCAN aglomeração hierárquica e análise de componentes principais PCA amplamente utilizados em tarefas de clusterização segmentação de grupos sem rótulos e redução de dimensionalidade compressão de variáveis para visualização ou eliminação de ruído Essas técnicas são úteis quando não se possui variáveisalvo e desejase explorar padrões ocultos nos dados Ferramentas de préprocessamento de dados incluindo normalização padronização codificação de variáveis categóricas OneHot Encoding imputação de valores ausentes binarização e seleção de atributos feature selection Essas etapas são essenciais para garantir que os dados estejam em formato adequado para a modelagem minimizando problemas causados por escalas diferentes dados faltantes ou redundância de variáveis Técnicas de validação cruzada crossvalidation e métodos de avaliação de desempenho como matrizes de confusão curvas ROC métricas de precisão recall F1score e acurácia Essas ferramentas permitem medir o desempenho dos modelos de forma confiável evitando problemas como overfitting quando o modelo aprende ruídos em vez de padrões e underfitting quando o modelo é incapaz de capturar as tendências dos dados Construção de pipelines automatizados recurso essencial para encadear etapas do fluxo de trabalho de aprendizado de máquina Com isso é possível padronizar a aplicação de transformações seleção de atributos e ajuste de 56 Capítulo 2 Revisão da Literatura modelos em um único objeto facilitando testes reuso de código e reprodutibilidade dos experimentos O Scikitlearn também oferece suporte a técnicas como ajuste de hiperparâmetros por grid search e random search além de implementações para métricas customizadas modelos probabilísticos e técnicas de balanceamento de classes como SMOTE Synthetic Minority Oversampling Technique Sua versatilidade permite atender desde projetos introdutórios até aplicações mais avançadas em modelagem preditiva Com ampla documentação uma comunidade ativa de desenvolvedores e usuários tutoriais atualizados e compatibilidade com ferramentas de visualização como Matplotlib e Seaborn o Scikitlearn é hoje considerado um dos frameworks mais acessíveis e poderosos para o desenvolvimento de soluções em ciência de dados Sua arquitetura modular associada à simplicidade de uso o consolidou como uma das bibliotecas mais utilizadas em pesquisas acadêmicas projetos educacionais ambientes corporativos e prototipagem rápida de modelos de aprendizado de máquina 21154 Matplotlib A biblioteca Matplotlib desenvolvida por John D Hunter em 2007 representa uma das ferramentas mais consolidadas para visualização de dados em Python sendo amplamente empregada na comunidade científica em ambientes acadêmicos e no setor corporativo Sua criação teve como objetivo suprir a necessidade por uma biblioteca gráfica poderosa flexível e orientada à publicação científica de alta qualidade similar ao que o MATLAB oferecia mas em um ecossistema de código aberto Ao longo dos anos a Matplotlib tornouse a base para bibliotecas de visualização mais especializadas e de alto nível como Seaborn Plotly Pandas Visualization e ggplot versão inspirada no ggplot2 do R consolidandose como um framework de visualização fundamental no contexto da ciência de dados com Python A biblioteca se destaca por permitir a criação de visualizações que vão desde gráficos simples e rápidos úteis na análise exploratória inicial até composições 57 Capítulo 2 Revisão da Literatura gráficas complexas e altamente personalizadas adequadas para publicações científicas apresentações executivas ou dashboards interativos Sua compatibilidade com ambientes interativos como Jupyter Notebook Google Colab Visual Studio Code e PyCharm proporciona uma experiência analítica fluida e iterativa integrandose perfeitamente aos fluxos de trabalho de análise e descoberta de conhecimento em bases de dados KDD Knowledge Discovery in Databases Enttre as principais Funcionalidades da Matplotlib estão Diversidade de tipos de gráficos A Matplotlib suporta a criação de uma ampla gama de visualizações incluindo Gráficos de linha barras verticais e horizontais setores pie charts dispersão scatter plots histogramas gráficos de densidade gráficos de área gráficos de velas candlestick mapas de calor heatmaps gráficos tridimensionais 3D com mpltoolkitsmplot3d entre outros Essa variedade torna a biblioteca aplicável desde o ensino de estatística básica até o suporte a estudos avançados em inteligência artificial e modelagem preditiva Customização total de elementos visuais Todos os componentes de um gráfico cores estilos de linha marcadores espessura de traço rótulos de eixo títulos legendas escalas grades fontes orientação de textos margens e posicionamento podem ser modificados com precisão Essa flexibilidade permite a adequação estética e semântica das visualizações ao públicoalvo e ao propósito analítico Integração nativa com o ecossistema científico do Python A Matplotlib é totalmente compatível com estruturas de dados oriundas do NumPy arrays e Pandas DataFrames o que facilita a criação de gráficos diretamente a partir de conjuntos de dados organizados sem a necessidade de conversões intermediárias Ela também se integra com ferramentas de aprendizado de máquina como Scikitlearn permitindo a visualização de métricas de desempenho e curvas de validação em pipelines de modelagem Exportação em formatos de alta resolução Os gráficos gerados podem ser exportados em múltiplos formatos vetoriais e rasterizados como PNG 58 Capítulo 2 Revisão da Literatura SVG EPS PDF e TIFF com controle detalhado de dpi dots per inch garantindo a qualidade necessária para publicação em periódicos apresentações formais ou relatórios técnicos Composição de subplots e layouts avançados Através de funções como subplot subplots e do módulo gridspec é possível organizar múltiplas visualizações em estruturas de grade viabilizando a comparação simultânea de diferentes aspectos de um mesmo conjunto de dados Isso é especialmente útil em relatórios de análise multivariada benchmarking e apresentação de séries temporais complexas Recursos de interatividade A Matplotlib oferece suporte a interações básicas por meio do modo interativo matplotlib inline ou matplotlib notebook incluindo zoom pan rotação em gráficos 3D atualização de dados em tempo real e integração com interfaces gráficas GUIs como Tkinter PyQt wxPython e GTK Esses recursos são particularmente úteis para a construção de prototipagens rápidas ferramentas educacionais ou visualizações reativas em ambientes de simulação A utilização da Matplotlib é estratégica nas fases exploratórias e de comunicação visual dos resultados em projetos de ciência de dados Durante o processo de KDD ela possibilita a detecção de padrões visuais tendências temporais anomalias e relações entre variáveis servindo como suporte tanto para a formulação de hipóteses quanto para a validação de modelos Sua expressividade visual a torna também essencial em storytelling com dados contribuindo para a transparência e interpretabilidade em contextos onde a comunicação de achados analíticos é tão importante quanto a modelagem em si Sua ampla base de usuários documentação rica vasta produção de tutoriais e notebooks públicos como no Kaggle GitHub ou Google Colab reforçam seu papel como ferramenta padrão para visualização gráfica em Python Essa aceitação comunitária e institucional confere à Matplotlib longevidade confiabilidade e relevância prática em projetos acadêmicos científicos e corporativos que envolvem análise quantitativa modelagem estatística e inteligência artificial 59 Capítulo 2 Revisão da Literatura 21155 Seaborn A biblioteca Seaborn é uma ferramenta de alto nível para visualização estatística de dados em Python construída sobre a base funcional do Matplotlib e integrada nativamente ao Pandas Desenvolvida por Michael Waskom e colaboradores WASKOM et al 2020 seu principal objetivo é fornecer uma interface simples elegante e estatisticamente informada para a geração de gráficos facilitando o processo de análise exploratória de dados EDA Ao abstrair grande parte da complexidade do Matplotlib Seaborn promove a criação de visualizações ricas com mínimo esforço de codificação especialmente voltadas à investigação de relações e padrões entre variáveis Projetada para operar de forma fluida com DataFrames a biblioteca reduz a necessidade de manipulação explícita de dados antes da visualização Os usuários podem referenciar diretamente os nomes das colunas como argumentos das funções de visualização o que acelera a prototipagem gráfica em fluxos analíticos tabulares Essa característica torna o Seaborn particularmente eficaz em contextos que envolvem grandes volumes de dados organizados em colunas como em análises econômicas comportamentais biomédicas e sociais Principais Recursos e Funcionalidades do Seaborn Variedade de gráficos estatísticos de alto nível O Seaborn oferece suporte à criação de múltiplos tipos de gráficos com apelo estatístico incluindo Distribuições univariadas e bivariadas histplot kdeplot boxplot violinplot displot Relações entre variáveis scatterplot lineplot regplot com suporte à regressão linear simples Comparações categóricas barplot pointplot countplot stripplot e swarmplot que facilitam a análise de agrupamentos e segmentações por variáveis qualitativas 60 Capítulo 2 Revisão da Literatura Trabalho direto com DataFrames Pandas A biblioteca foi projetada para reconhecer e operar com colunas nomeadas como eixos e atributos estéticos Isso elimina a necessidade de transformação manual de dados permitindo um desenvolvimento ágil e eficiente de visualizações em ambientes interativos Estilos e temas visuais integrados Seaborn disponibiliza uma série de temas visuais predefinidos darkgrid whitegrid dark white ticks que proporcionam uma aparência estética limpa e coerente com ênfase na legibilidade e clareza gráfica Essa padronização visual é especialmente útil em relatórios técnicos e apresentações científicas Simplificação na criação de visualizações complexas Em comparação ao Matplotlib a sintaxe do Seaborn é mais declarativa e reduz a necessidade de comandos de baixo nível A criação de gráficos informativos com recursos estatísticos embutidos como intervalos de confiança ajustes de curva subgrupos de comparação com hue col row pode ser realizada em poucas linhas de código Gráficos específicos para variáveis categóricas A biblioteca oferece suporte robusto à análise visual de dados categóricos por meio de gráficos que mostram distribuições condicionais comparações por grupo e efeitos de interações entre variáveis qualitativas e quantitativas Isso permite explorar com profundidade fenômenos estratificados por categorias Mapas de calor e correlações A função heatmap possibilita a criação de mapas de calor diretamente a partir de matrizes de correlação ou tabelas cruzadas utilizando gradientes de cor para representar a intensidade dos relacionamentos entre variáveis Esse tipo de gráfico é particularmente útil em análises multivariadas e identificação de colinearidades Incorporação de elementos estatísticos Seaborn não se limita à estética visual mas integra elementos analíticos como curvas de regressão sombreamento de incertezas estimativas de densidade kernel KDE e mecanismos de suavização promovendo insights visuais ancorados em princípios estatísticos 61 Capítulo 2 Revisão da Literatura O Seaborn ocupa um papel central na fase de análise exploratória de dados do processo de KDD Knowledge Discovery in Databases oferecendo uma abordagem orientada à descoberta visual de padrões outliers tendências e relações de dependência Sua combinação de expressividade visual simplicidade sintática e rigor estatístico o torna particularmente adequado tanto para cientistas de dados iniciantes quanto para profissionais experientes em busca de rapidez na iteração gráfica A biblioteca também é amplamente utilizada em conjunto com ferramentas como Jupyter Notebook Google Colab Pandas e NumPy compondo um ambiente analítico completo interativo e reprodutível Por meio da integração com o Matplotlib é possível realizar ajustes finos em visualizações criadas com Seaborn mantendo a compatibilidade com fluxos gráficos avançados Em síntese o Seaborn representa uma evolução em relação ao Matplotlib no que se refere à eficiência e clareza na comunicação visual de dados consolidando se como uma das principais bibliotecas para análises exploratórias orientadas por estatística visual com aplicações amplas em pesquisa acadêmica estudos de mercado análise de desempenho e ciência aplicada 21156 MISSINGNO A biblioteca Missingno constitui uma ferramenta especializada de visualização para análise de valores ausentes missing data em conjuntos de dados tabulares no ecossistema Python Projetada com foco na exploração gráfica de lacunas em dados estruturados a biblioteca desempenha um papel crucial na etapa de pré processamento e diagnóstico de qualidade dos dados no processo de Knowledge Discovery in Databases KDD Conforme discutido por Waskom et al 2020 sua aplicação é particularmente eficaz na identificação de padrões estruturais e correlações entre ausências oferecendo suporte visual às decisões sobre imputação exclusão ou tratamento condicional de dados incompletos Diferentemente de abordagens puramente numéricas ou estatísticas Missingno permite representar graficamente a presença e ausência de dados em um 62 Capítulo 2 Revisão da Literatura DataFrame evidenciando tendências agrupamentos e relações entre colunas e registros afetados por ausência de informações Esse tipo de visualização favorece a compreensão contextual das lacunas nos dados essencial para preservar a robustez dos modelos analíticos e preditivos construídos sobre tais bases Funcionalidades Principais do Missingno Integração direta com Pandas A biblioteca foi projetada para operar nativamente com estruturas do tipo DataFrame possibilitando a aplicação imediata em fluxos de análise já fundamentados nas bibliotecas Pandas e NumPy A simplicidade de sua sintaxe permite a geração de gráficos com mínimo esforço de codificação o que a torna acessível tanto para usuários iniciantes quanto para analistas experientes Visualizações especializadas para dados faltantes Missingno disponibiliza um conjunto conciso porém poderoso de representações gráficas dedicadas à inspeção de dados ausentes msnomatrix Exibe a estrutura de presença e ausência de dados por meio de barras verticais para cada observação destacando padrões longitudinais de completude ou ausência em registros msnobar Mostra a contagem absoluta e relativa de valores não nulos por coluna oferecendo uma visão quantitativa e intuitiva do grau de completude do dataset msnoheatmap Apresenta uma matriz de correlação entre colunas com base na ausência simultânea de dados auxiliando na identificação de variáveis com lacunas correlacionadas o que é útil em estratégias de imputação condicional ou análise de dependência entre ausências msnodendrogram Gera uma árvore hierárquica dendrograma agrupando colunas com padrões similares de ausência facilitando a identificação de clusters de variáveis estruturalmente relacionadas por incompletude 63 Capítulo 2 Revisão da Literatura Interface de fácil interpretação e rápida aplicação Um dos principais diferenciais do Missingno está em sua capacidade de gerar diagnósticos visuais altamente informativos com poucas linhas de código mantendo a clareza e a interpretabilidade das visualizações Essa característica é especialmente valiosa em ambientes de análise exploratória rápida como Jupyter Notebooks e em auditorias iniciais de bases de dados heterogêneas Relevância no Processo de Preparação de Dados No contexto do préprocessamento e da engenharia de atributos Missingno representa uma ferramenta estratégica para o aprimoramento da qualidade e confiabilidade dos dados analisados A visualização de lacunas ajuda a evitar abordagens genéricas ou inadequadas de tratamento de valores ausentes favorecendo decisões informadas como Aplicação de técnicas de imputação seletiva baseada em padrões de ausência Remoção de colunas ou registros com altos níveis de incompletude estrutural Detecção de blocos temporais ou variáveis correlacionadas afetadas por falhas sistemáticas de coleta Além disso o domínio dessa ferramenta amplia a capacidade crítica e técnica dos profissionais de ciência de dados contribuindo para a construção de pipelines analíticos mais transparentes e robustos Segundo VanderPlas 2016 o uso competente de bibliotecas como Missingno aliadas a Pandas NumPy e Scikitlearn representa um diferencial relevante na produtividade analítica e na tomada de decisão baseada em evidência reprodutível 212 Transformação De Dados A transformação de dados compreende um conjunto de processos essenciais destinados a converter dados brutos em formatos adequados às exigências das etapas subsequentes de análise e modelagem Entre as técnicas mais utilizadas destacamse a normalização a padronização a discretização a codificação de 64 Capítulo 2 Revisão da Literatura variáveis categóricas e a transformação logarítmica dentre outras Essas metodologias são cruciais para garantir a compatibilidade dos dados com os algoritmos de mineração e aprendizado de máquina promovendo ganhos expressivos em termos de desempenho computacional robustez e acurácia dos modelos resultantes Particularmente quando atributos apresentam escalas ou unidades distintas a aplicação correta da transformação tornase imprescindível visto que muitos algoritmos baseados em medidas de distância ou gradientes são sensíveis à magnitude dos valores Assim a transformação de dados configurase como uma etapa crítica dentro do ciclo de vida da análise prevenindo vieses e facilitando a convergência e generalização dos modelos Paralelamente a análise multivariada representa um campo estatístico dedicado à observação e interpretação simultânea de múltiplas variáveis dependentes possibilitando uma compreensão mais holística e realista de fenômenos complexos caracterizados por interrelações e dependências mútuas Amplamente empregada em áreas diversas como estudos ambientais geográficos e socioeconômicos essa abordagem estatística visa não necessariamente soluções otimizadas isoladamente mas sim a construção de representações interpretáveis e coerentes dos sistemas analisados Nijkamp 1999 Métodos consagrados como a análise de componentes principais PCA a análise fatorial a análise de agrupamentos cluster analysis e a análise discriminante figuram entre as principais ferramentas para a identificação de padrões latentes redução dimensional e segmentação de conjuntos multivariados No contexto do método proposto para segmentação de clientes B2B a análise multivariada assume papel estratégico ao viabilizar a exploração estruturada e interpretável de grandes volumes de dados heterogêneos que englobam variáveis como faturamento porte empresarial tempo de relacionamento e volume de compras Essa abordagem permite identificar agrupamentos naturais clusters de clientes com perfis similares facilitando a visualização e compreensão dos segmentos emergentes Além disso a combinação entre a análise multivariada e a transformação adequada dos dados fortalece a fundamentação estatística e comercial das estratégias de segmentação sustentando decisões baseadas em evidências concretas Dessa forma contribui decisivamente para a formulação de 65 Capítulo 2 Revisão da Literatura ações personalizadas a priorização eficiente de recursos e a otimização do relacionamento com diferentes perfis dentro do portfólio de clientes 2121 Método De Clusterização A análise de agrupamentos ou cluster analysis referese a um conjunto de técnicas estatísticas que têm como objetivo principal agrupar objetos ou observações com base em suas semelhanças e diferenças buscando identificar estruturas naturais nos dados A ideia central é formar grupos chamados de clusters de forma que os elementos pertencentes a um mesmo grupo apresentem alta similaridade entre si enquanto os grupos diferentes sejam idealmente o mais distintos possível uns dos outros Essa similaridade geralmente é medida por meio de distâncias matemáticas como a distância euclidiana ou a de Manhattan aplicadas sobre as variáveis disponíveis MALHOTRA 2006 Diferentemente de métodos supervisionados a análise de agrupamentos não pressupõe uma variávelalvo ou categorias prédefinidas Ela é uma técnica descritiva utilizada quando não se conhece a priori a estrutura do conjunto de dados permitindo descobrir padrões latentes e segmentos relevantes sem interferência de suposições Por isso não se faz distinção entre variáveis independentes e dependentes todas são consideradas na definição das semelhanças Como aponta Hair et al 2009 essa característica torna o método especialmente valioso em pesquisas exploratórias onde o objetivo é revelar agrupamentos naturais de indivíduos objetos ou empresas a partir de um grande volume de dados multivariados Esse tipo de análise se mostra extremamente útil em contextos onde o número de observações é elevado tornando impraticável a análise individual de cada elemento A partir da formação dos clusters é possível reduzir a complexidade dos dados facilitando tanto a visualização quanto a interpretação de tendências e comportamentos semelhantes entre os elementos agrupados Dessa forma a análise de agrupamentos é frequentemente empregada em áreas como marketing biologia psicologia geografia e ciência de dados por exemplo na segmentação 66 Capítulo 2 Revisão da Literatura de clientes classificação de espécies agrupamento de regiões geográficas ou na redução de dimensionalidade para aprendizado de máquina Na análise de agrupamentos não há conhecimento prévio sobre o número tamanho ou características dos grupos a serem formados Os algoritmos assumem que os dados falarão por si e os clusters são obtidos com base em medidas matemáticas de proximidade sem qualquer rótulo externo Por isso tratase de uma técnica não supervisionada voltada à descoberta de padrões ocultos nos dados HAIR et al 2009 O processo de clusterização pode ser dividido em duas etapas fundamentais 1 a estimação das medidas de similaridade ou dissimilaridade entre os objetos e 2 a aplicação de um algoritmo de agrupamento que utilizará essas medidas para formar os grupos Existem diversas técnicas para conduzir essa análise e a escolha da abordagem mais adequada depende do tipo de dados do objetivo do estudo e da quantidade de informações disponíveis Segundo Hair et al 2009 as técnicas de agrupamento podem ser classificadas em dois grandes grupos a Abordagem Hierárquica caracterizase pela construção de uma estrutura em forma de árvore dendrograma a partir de fusão sucessiva aglomeração ou divisão recursiva divisiva dos elementos Inicialmente cada observação é tratada como um grupo separado e os grupos são combinados com base em critérios de proximidade formando novos grupos em níveis hierárquicos até que todos estejam reunidos O dendrograma resultante mostra visualmente as distâncias entre os agrupamentos formados permitindo ao analista decidir a posteriori o número mais adequado de clusters com base em saltos significativos nas distâncias b Abordagem Não Hierárquica ao contrário da hierárquica essa abordagem exige que o número de clusters seja definido previamente pelo pesquisador O algoritmo mais conhecido desta categoria é o kmeans que busca particionar os dados em k grupos distintos minimizando a variância intracluster e maximizando a variância entre os clusters A técnica é eficiente e amplamente utilizada sobretudo em contextos com grandes volumes de dados onde o custo computacional da abordagem hierárquica se torna inviável 67 Capítulo 2 Revisão da Literatura Ambas as abordagens possuem vantagens e limitações e muitas vezes são utilizadas de forma complementar Por exemplo a análise hierárquica pode ser empregada inicialmente para estimar um número apropriado de clusters que então é refinado por meio do kmeans ou de outro método não hierárquico A escolha criteriosa da abordagem e da métrica de similaridade é fundamental para garantir agrupamentos coerentes e interpretáveis especialmente em aplicações como a segmentação de clientes B2B onde decisões estratégicas serão tomadas com base nos perfis identificados 21211 ELBOW O método do cotovelo Elbow Method é uma técnica visual amplamente utilizada na análise de agrupamentos clustering para a determinação do número ideal de clusters especialmente no contexto do algoritmo kmeans O principal objetivo desse método é identificar um ponto ótimo na curva que representa a relação entre o número de clusters e a qualidade da segmentação evitando problemas comuns como o subajuste underfitting onde poucos clusters não capturam adequadamente a heterogeneidade dos dados e o superajuste overfitting que ocorre quando clusters excessivos fragmentam desnecessariamente os grupos prejudicando a interpretabilidade e a generalização do modelo O método baseiase na análise da Soma dos Erros Quadrados Sum of Squared Errors SSE também chamada de inércia total que mensura a soma das distâncias quadráticas entre os pontos e os centróides de seus respectivos clusters À medida que o número de clusters kkk aumenta a SSE diminui de forma monotônica pois os dados são particionados em grupos menores e mais homogêneos o que reduz a distância média dos pontos ao centróide de cada cluster Inicialmente essa redução é acentuada já que a divisão dos dados em poucos clusters gera grandes agrupamentos heterogêneos portanto a criação de novos clusters melhora significativamente a coesão interna Entretanto após certo valor crítico de kkk a redução da SSE tornase menos significativa pois os clusters já são suficientemente detalhados para representar as 68 Capítulo 2 Revisão da Literatura estruturas subjacentes dos dados Neste estágio o acréscimo de novos clusters produz ganhos marginais mínimos na homogeneidade ao custo de aumentar a complexidade do modelo O gráfico do número de clusters versus SSE assim forma uma curva com um formato característico semelhante a um cotovelo cujo ponto de inflexão é interpretado como o número ideal de clusters a ser utilizado Figura 3 Exemplificação Gráfica Elbow Fonte Adaptado pelo autor 2025 Na Figura 3 observase a curva da SSE em função do número de clusters Inicialmente a SSE apresenta uma queda expressiva ao aumentar de 2 para 3 clusters refletindo a melhora substancial na coesão dos grupos Conforme mais clusters são adicionados a SSE continua a decrescer porém em ritmo desacelerado A partir de k4k 4k4 notase uma diminuição marginal no ritmo de queda da SSE configurando visualmente o cotovelo da curva o ponto onde os ganhos em coesão são insuficientes para justificar a maior complexidade do modelo A identificação desse ponto é fundamental para o equilíbrio entre simplicidade e eficácia Optar por um número de clusters inferior pode resultar em grupos demasiadamente heterogêneos comprometendo a representatividade dos perfis Por outro lado um número excessivo de clusters pode gerar uma segmentação superfragmentada dificultando a interpretação dos resultados e a aplicação prática das conclusões 69 Capítulo 2 Revisão da Literatura Assim com base na análise gráfica apresentada a escolha de k4k 4k4 revelase adequada para o conjunto de dados em questão assegurando uma segmentação representativa das estruturas latentes subjacentes e alinhada aos objetivos analíticos do estudo Esse número promove uma divisão equilibrada que capta a diversidade dos dados sem sacrificar a interpretabilidade e a robustez do modelo Além do aspecto visual recomendase complementar a decisão do número ideal de clusters com outras métricas quantitativas como o coeficiente de silhueta que avalia a separação entre os grupos ou métodos estatísticos baseados em validação cruzada e estabilidade dos clusters Essa abordagem integrada fortalece a confiabilidade da segmentação e permite escolhas mais informadas e justificadas no processo analítico 21212 SILHOUETTE Para complementar a análise do número ideal de clusters a Pontuação de Silhueta é utilizada como uma métrica que avalia a qualidade dos agrupamentos a partir da coesão interna e da separação entre os grupos Diferentemente do Método do Cotovelo que foca na redução do erro interno a Silhueta oferece uma visão sobre o quão bem definidos e distintos estão os clusters formados auxiliando na validação da segmentação obtida Figura 04 Gráfico da Pontuação de Silhueta em função do número de clusters 70 Capítulo 2 Revisão da Literatura Fonte Adaptado pelo autor 2025 Na Figura 04 apresentase o gráfico da Pontuação de Silhueta em função do número de clusters que é uma das métricas mais importantes para avaliar a qualidade dos agrupamentos obtidos por técnicas de clusterização A pontuação de Silhueta mede a consistência interna dos clusters ao combinar a coesão dos elementos dentro de cada grupo e a separação entre os grupos distintos possibilitando uma avaliação quantitativa da qualidade do particionamento O gráfico evidencia que a pontuação atinge seu valor máximo superior a 085 quando o número de clusters é igual a 2 Esse resultado indica que nessa configuração os grupos apresentam forte coesão interna ou seja os elementos pertencentes ao mesmo cluster são altamente similares e uma clara separação em relação aos elementos dos demais clusters Tal cenário sugere que o particionamento em dois grupos fornece uma segmentação robusta e facilmente interpretável tornandoa altamente recomendada para aplicações práticas Ao aumentar o número de clusters para 3 ou mais observase uma queda significativa na pontuação de Silhueta que se estabiliza em valores entre 076 e 079 até aproximadamente 8 clusters Esta faixa indica uma qualidade moderada refletindo que os clusters criados possuem sobreposição ou pouca distinção clara entre eles o que pode dificultar a interpretação dos grupos e comprometer a utilidade da segmentação em contextos reais 71 Capítulo 2 Revisão da Literatura Quando o número de clusters ultrapassa esse ponto especialmente a partir de 9 ou 10 grupos a pontuação diminui de forma mais acentuada sinalizando que a qualidade da segmentação é severamente comprometida Esse comportamento sugere que a divisão adicional cria grupos artificiais ou muito fragmentados que provavelmente não representam padrões reais ou úteis dentro do conjunto de dados Ao confrontar essa análise com os resultados obtidos pelo Método do Cotovelo Figura 03 identificase uma divergência metodológica significativa Enquanto o Método do Cotovelo baseado na minimização da soma dos erros quadrados SSE indica que a escolha de 4 clusters poderia ser adequada por equilibrar homogeneidade e complexidade a métrica de Silhueta prioriza a qualidade da separação entre os grupos apontando claramente que o agrupamento com apenas 2 clusters oferece a melhor segmentação em termos estatísticos e interpretativos Essa divergência não deve ser interpretada como uma contradição mas sim como um indicativo da complexidade inerente à análise de agrupamentos especialmente quando os dados possuem estruturas intrincadas com sobreposição ou ausência de fronteiras claras entre grupos Portanto a decisão final sobre o número de clusters deve considerar múltiplas perspectivas o embasamento em diferentes métricas quantitativas o conhecimento de domínio do problema os objetivos específicos da segmentação e a viabilidade prática de implementação e interpretação dos resultados Em resumo a análise da Pontuação de Silhueta se mostra uma ferramenta valiosa para validar tanto visual quanto estatisticamente a qualidade dos agrupamentos No presente estudo essa métrica reforça a recomendação de segmentar o conjunto de dados em 2 clusters proporcionando um modelo mais coeso distinto e interpretável que pode ser aplicado com maior segurança para suportar decisões estratégicas 2122 KMEANS O método kmeans é uma técnica de análise não hierárquica amplamente utilizada em projetos de mineração de dados e ciência de dados por sua 72 Capítulo 2 Revisão da Literatura simplicidade eficiência computacional e facilidade de interpretação dos resultados Ao receber um número prédefinido de agrupamentos k o algoritmo tem como objetivo particionar os dados em k clusters distintos de forma que cada observação pertença ao grupo cujo centroide ponto central do cluster esteja mais próximo Esse processo é repetido sucessivamente até que o modelo atinja um estado estável ou seja até que as observações deixem de mudar de grupo entre as iterações HAIR 2009 HAN et al 2011 Inicialmente os centroides são definidos aleatoriamente no espaço de atributos Em seguida cada observação é associada ao cluster mais próximo com base em uma métrica de distância normalmente a distância Euclidiana Após essa etapa de alocação os centroides de cada grupo são recalculados como a média aritmética das observações pertencentes ao respectivo cluster Essa realocação dos centroides resulta então em uma nova redistribuição dos dados O processo se repete de forma iterativa a cada ciclo os dados são reagrupados em torno dos centroides atualizados e os centroides são novamente recalculados com base nas novas composições dos clusters Esse procedimento iterativo continua até que o algoritmo atinja um ponto de convergência ou seja quando a composição dos clusters deixa de variar entre as iterações consecutivas Em algumas implementações um critério de parada adicional pode ser estabelecido com base em um número máximo de iterações ou em um limiar mínimo de variação entre os centroides O objetivo central do kmeans é minimizar a variância intracluster o que significa reduzir a soma das distâncias quadradas entre os pontos e seus respectivos centroides Com isso o método busca maximizar a coesão interna de cada grupo e a separação entre os diferentes clusters resultando em agrupamentos mais homogêneos internamente e bem distintos entre si Essa característica o torna particularmente eficaz em contextos de segmentação de mercado análise comportamental e agrupamento de padrões de consumo entre outros Essa abordagem foi empregada neste trabalho como técnica principal para realizar a segmentação dos dados proporcionando uma maneira objetiva e estatisticamente fundamentada de agrupar os clientes B2B com base em suas características multivariadas 73 Capítulo 2 Revisão da Literatura A Figura 5 apresenta a visualização dos agrupamentos obtidos com o algoritmo KMeans utilizando redução de dimensionalidade por Análise de Componentes Principais PCA Figura 5 Visualização dos clusters gerados pelo KMeans com redução PCA Fonte Adaptado pelo autor 2025 2123 Análise Fatorial A análise fatorial configurase como uma das técnicas estatísticas multivariadas mais relevantes quando o objetivo é compreender a estrutura latente de um conjunto de variáveis interrelacionadas Sua aplicação tem como finalidade principal reduzir a dimensionalidade dos dados por meio da identificação de um número reduzido de fatores subjacentes não observáveis diretamente que juntos explicam a maior parte da variabilidade comum existente entre os indicadores analisados Tratase portanto de uma ferramenta que permite sintetizar informações complexas em estruturas mais manejáveis e interpretáveis facilitando tanto a visualização quanto a compreensão dos fenômenos estudados De acordo com Höppner et al 2018 a análise fatorial é amplamente empregada para revelar padrões ocultos nos dados agrupando variáveis com alto 74 Capítulo 2 Revisão da Literatura grau de correlação em torno de fatores comuns que representam dimensões latentes de um fenômeno estudado Esse agrupamento é particularmente útil em contextos nos quais se busca entender o comportamento de consumidores identificar segmentos de mercado ou estudar fenômenos sociais e organizacionais em que múltiplas variáveis podem estar relacionadas a construtos teóricos mais amplos O processo metodológico iniciase com a construção da matriz de correlação entre as variáveis observadas a partir da qual se procede à extração dos fatores Entre os métodos mais utilizados para essa extração destacase a Análise de Componentes Principais PCA conforme descrito por Thompson 2004 que permite decompor a variância total dos dados em componentes independentes Cada fator extraído é associado a um autovalor eigenvalue que representa a quantidade de variância explicada por aquele fator específico Além disso são obtidos autovetores eigenvectors que indicam as cargas fatoriais isto é o grau de correlação entre cada variável observada e os fatores latentes Ao considerar essas cargas é possível interpretar os fatores como combinações lineares das variáveis originais sendo que apenas os fatores com variância significativa geralmente com autovalor superior a 1 são mantidos para análise Assim determinase o número ideal de fatores que conseguem explicar uma parcela substancial da variância total do modelo ao mesmo tempo em que se evita a inclusão de fatores espúrios ou pouco representativos Quanto maior o número de fatores retidos maior será a capacidade explicativa da análise porém menor será a simplificação do modelo por isso é fundamental buscar um equilíbrio entre parsimônia e poder explicativo Uma ferramenta complementar que contribui para essa decisão é o Scree Plot ou gráfico de autovalores Essa representação visual permite avaliar o ponto de inflexão da curva indicando quantos fatores devem ser considerados relevantes Esse ponto geralmente associado ao critério de Kaiser que considera autovalores maiores que 1 marca a transição entre fatores significativos e fatores com contribuição marginal para a explicação da variância A seguir apresentase a Figura 6 que ilustra o Scree Plot gerado a partir da análise dos dados do presente estudo 75 Capítulo 2 Revisão da Literatura Figura 6 Scree Plot Distribuição dos Autovalores por Componente Principal Fonte Adaptado pelo autor 2025 Na Figura 6 observase que os dois primeiros componentes principais apresentam autovalores superiores a 1 indicando que explicam uma parcela significativa da variância total do modelo A partir do terceiro componente os autovalores diminuem gradativamente evidenciando uma inclinação menos acentuada na curva Esse comportamento sugere a presença de um ponto de inflexão entre o segundo e o terceiro fator o que reforça a ideia de que os dois primeiros fatores são os mais relevantes para explicar os dados A interpretação adequada desse gráfico auxilia na seleção de um modelo mais parcimonioso evitando tanto a subextração quanto a superextração de fatores A escolha final do número de componentes a serem mantidos deve considerar não apenas os critérios estatísticos como o valor dos autovalores e o percentual de variância explicada mas também o conhecimento teórico do pesquisador e a aplicabilidade prática dos fatores no contexto do estudo Dessa forma o Scree Plot constitui uma ferramenta valiosa para a validação empírica da estrutura fatorial adotada Nesse sentido a análise fatorial desempenha um papel estratégico na redução da complexidade dos dados viabilizando interpretações mais robustas e direcionadas Sua utilidade se estende a diversos campos da pesquisa acadêmica e 76 Capítulo 2 Revisão da Literatura aplicada incluindo psicometria marketing educação ciências sociais e comportamento do consumidor sendo considerada uma técnica essencial no arsenal metodológico da estatística multivariada 2124 Análise De Componentes Principais Pca A Análise de Componentes Principais PCA Principal Component Analysis é uma das técnicas estatísticas multivariadas mais consagradas para a redução da dimensionalidade de dados Sua principal finalidade consiste em transformar um conjunto possivelmente grande de variáveis interrelacionadas em um novo conjunto menor e composto por variáveis não correlacionadas os chamados componentes principais Esses componentes são combinações lineares das variáveis originais construídas de modo a reter o máximo possível da variância total dos dados no menor número de dimensões Dessa forma a PCA permite preservar a essência da informação contida nos dados originais ao mesmo tempo em que elimina redundâncias e simplifica as estruturas De acordo com Hair et al 2009 a aplicação da PCA iniciase com a padronização das variáveis quando possuem escalas diferentes seguida pela construção da matriz de covariância entre os atributos A partir dessa matriz são calculados os autovalores que indicam a quantidade de variância explicada por cada componente e os autovetores que definem as direções principais da variabilidade nos dados Os componentes principais são então ordenados com base na variância que explicam sendo o primeiro componente aquele que representa a maior variabilidade dos dados o segundo componente representa a maior variância residual ortogonal ao primeiro e assim sucessivamente A Figura 7 apresentada a seguir ilustra o Scree Plot gerado a partir da decomposição PCA do conjunto de dados analisado neste estudo Observase que os dois primeiros componentes explicam uma fração significativa da variância total o que sugere que a maior parte da informação contida nas variáveis originais pode ser representada de forma eficiente em apenas duas dimensões Este tipo de visualização é particularmente útil na definição do número ideal de componentes a serem retidos pois destaca o ponto de inflexão ou joelho onde o acréscimo de novos componentes passa a representar ganhos marginais na variância explicada 77 Capítulo 2 Revisão da Literatura Figura 7 Scree Plot dos Autovalores por Componente Principal Fonte Adaptado pelo autor 2025 A PCA é especialmente útil em cenários nos quais há um grande número de variáveis que podem dificultar análises ou visualizações diretas Ao condensar essas variáveis em poucos componentes é possível gerar gráficos de dispersão bidimensionais ou tridimensionais que revelam padrões agrupamentos ou outliers nos dados Além disso ao eliminar dimensões com variância muito baixa frequentemente associadas a ruídos a PCA melhora o desempenho de modelos computacionais como algoritmos de clusterização classificação e regras de associação favorecendo maior acurácia e menor sobreajuste A utilidade prática da PCA também é observada em estudos como o de Cumps et al 2009 que empregaram essa técnica na etapa de préprocessamento para otimizar a indução de regras com o algoritmo AntMiner O objetivo era extrair regras compreensíveis sobre o alinhamento estratégico entre negócios e Tecnologias da Informação e Comunicação TIC utilizando um extenso conjunto de dados com informações provenientes de 641 organizações Nesse contexto a PCA foi fundamental para reduzir a complexidade dos dados sem comprometer a capacidade explicativa dos modelos gerados evidenciando sua relevância como etapa preparatória na análise de dados em ambientes corporativos e acadêmicos Além de atuar como ferramenta de redução de dimensionalidade a PCA desempenha um papel crítico na identificação de multicolinearidade entre variáveis 78 Capítulo 2 Revisão da Literatura na priorização de atributos relevantes e na obtenção de insights estruturais sobre o conjunto de dados Sua aplicabilidade é transversal a diversas áreas do conhecimento como finanças biologia marketing engenharia ciência de dados e ciências sociais consolidandose como um recurso metodológico de grande valor em estudos quantitativos 213 Data Mining Para Classificação 2131 Algoritmos De Classificação Diante da crescente demanda por análise de grandes volumes de dados e da rápida evolução das tecnologias de inteligência artificial a aplicação de técnicas analíticas avançadas tornouse não apenas relevante mas indispensável para a extração de insights estratégicos e a tomada de decisões baseadas em evidências Em um cenário em que a complexidade e a variedade dos dados crescem exponencialmente métodos como árvores de decisão redes neurais artificiais e algoritmos genéticos têm se consolidado como ferramentas centrais no campo do aprendizado de máquina machine learning e da mineração de dados data mining Essas técnicas vêm revolucionando a forma como as organizações e pesquisadores tratam os dados permitindo o reconhecimento de padrões ocultos a antecipação de comportamentos futuros e a automação de processos decisórios Particularmente os algoritmos de classificação destacamse por sua capacidade de categorizar observações com base em características previamente identificadas o que é essencial em contextos que envolvem diagnóstico segmentação previsão de churn recomendação de produtos entre outros Entre essas abordagens as árvores de decisão têm como principal atrativo a sua interpretabilidade os modelos gerados por esse método são compostos por regras simples estruturadas de forma hierárquica que permitem ao analista compreender o racional por trás de cada decisão ou classificação Essa transparência é especialmente valiosa em áreas que exigem rastreabilidade e explicações claras como o setor financeiro e a área da saúde 79 Capítulo 2 Revisão da Literatura As redes neurais artificiais por sua vez inspiradas no funcionamento do cérebro humano apresentam notável capacidade de capturar relações não lineares entre variáveis sendo amplamente utilizadas em tarefas que envolvem reconhecimento de padrões complexos classificação multiclasse predição contínua e identificação de anomalias Embora exijam maior poder computacional e apresentem menor interpretabilidade em comparação com as árvores de decisão seu desempenho preditivo em grandes bases de dados é frequentemente superior especialmente quando ajustadas por meio de técnicas de regularização e otimização Os algoritmos genéticos por fim representam uma classe de métodos inspirados nos princípios da seleção natural e da evolução biológica Sua principal aplicação no contexto de mineração de dados está na otimização de modelos preditivos onde são empregados para selecionar subconjuntos ideais de variáveis ajustar hiperparâmetros e descobrir regras de classificação de alta qualidade Um exemplo notório de aplicação é a técnica AntMiner um algoritmo baseado em colônia de formigas e princípios evolutivos utilizado para a indução de regras interpretáveis e a previsão de churn de clientes combinando eficiência e inteligibilidade Neste trabalho cada uma dessas abordagens será discutida em profundidade com foco na aplicação prática e na análise comparativa dos resultados obtidos As árvores de decisão serão exploradas como ferramenta explicativa e interpretável para regras de classificação as redes neurais artificiais serão implementadas como modelo preditivo de maior complexidade e poder de generalização e os algoritmos genéticos serão utilizados como mecanismo de otimização e extração de conhecimento com destaque para sua flexibilidade em problemas de múltiplos objetivos e espaços de busca extensos Essa diversidade metodológica permitirá uma análise abrangente do problema proposto considerando tanto o desempenho quanto a explicabilidade das soluções Figura 8 Comparação entre abordagens de classificação interpretabilidade desempenho preditivo e complexidade computacional 80 Capítulo 2 Revisão da Literatura Fonte Adaptado pelo autor 2025 A Figura 8 ilustra de forma comparativa os três métodos estudados com ênfase em três critérios analíticos interpretabilidade desempenho e complexidade Notase que as árvores de decisão se destacam pela alta transparência e facilidade de explicação enquanto as redes neurais apresentam maior desempenho em predições complexas porém com menor explicabilidade Já os algoritmos genéticos ocupam uma posição intermediária oferecendo boa capacidade de otimização com interpretabilidade moderada o que os torna atrativos em contextos híbridos Essa visualização contribui para fundamentar a escolha metodológica conforme os objetivos específicos do estudo e as restrições do domínio de aplicação 2132 DECISION TREE ARVORES DE DECISÃO PARA REGRAS DE CLASSIFICAÇÃO A técnica da árvore de decisão é amplamente utilizada no aprendizado supervisionado para tarefas de classificação e regressão destacandose como uma das abordagens mais intuitivas e explicáveis dentro do campo da ciência de dados Ela opera segmentando iterativamente o espaço de atributos criando partições que visam maximizar a pureza dos subconjuntos resultantes em relação à variávelalvo Em outras palavras o algoritmo constrói uma estrutura hierárquica em formato de 81 Capítulo 2 Revisão da Literatura árvore onde cada nó interno representa uma decisão baseada em uma variável e os nósfolha indicam a predição final classe ou valor Uma das grandes vantagens das árvores de decisão é sua capacidade interpretativa pois o modelo resultante pode ser facilmente visualizado e compreendido até mesmo por especialistas não técnicos Essa característica é especialmente valiosa em domínios como o marketing a saúde e o setor financeiro onde a transparência na tomada de decisão é tão importante quanto a precisão dos modelos LAROCHELLE et al 2022 Ao empregar o algoritmo da árvore de decisão em contextos comerciais como na segmentação de clientes ou previsão de churn tornase viável estimar a probabilidade de um cliente adquirir ou abandonar um produto ou serviço com base em seu perfil sociodemográfico comportamental ou histórico de consumo A estrutura hierárquica da árvore facilita a identificação dos fatores mais relevantes para cada decisão fornecendo insights práticos e acionáveis para gestores e analistas MOLNAR 2022 Segundo Cumps et al 2009 técnicas de mineração de dados fundamentadas em árvores de decisão demonstram elevada eficiência na classificação de bases complexas e heterogêneas permitindo a inferência de regras claras e concisas diretamente a partir dos dados coletados Um exemplo recente da eficácia dessa abordagem é apresentado no estudo de Chen et al 2021 publicado no Journal of Marketing Analytics que utilizou árvores de decisão combinadas com análise fatorial para prever rotatividade de clientes em empresas de telecomunicações Os autores conseguiram identificar os principais drivers de retenção de clientes como tempo de contrato volume de reclamações e pacotes promocionais com elevada acurácia e interpretabilidade Além disso o uso de algoritmos de árvore de decisão quando combinado com métodos de explicação como os valores SHAP SHapley Additive exPlanations conforme proposto por Lundberg et al 2020 pode aprimorar significativamente a capacidade de interpretação dos modelos elucidando o impacto individual de cada variável em cada predição Esse nível de explicabilidade é altamente valorizado em aplicações empresariais sobretudo em contextos regulados como o setor bancário Como ressalta Domingos 2015 embora árvores 82 Capítulo 2 Revisão da Literatura de decisão não sejam uma solução universal para todos os problemas sua robustez simplicidade e eficiência computacional as tornam ferramentas de primeira escolha em muitas aplicações do mundo real Figura 9 Exemplo esquemático de uma árvore de decisão simulando a classificação de clientes com base em perfil e comportamento Fonte Adaptado pelo autor 2025 2133 RF Random Forest A técnica Random Forest ou Floresta Aleatória é uma das abordagens mais robustas e eficazes do aprendizado de máquina supervisionado enquadrandose no paradigma de ensemble learning que consiste na combinação de múltiplos modelos preditivos com o objetivo de melhorar o desempenho geral da previsão Proposta por Leo Breiman em 2001 essa metodologia introduz uma estratégia engenhosa de agregação de diversas árvores de decisão modelos naturalmente instáveis e propensos ao sobreajuste a partir de uma dupla aleatorização tanto nas amostras de dados utilizadas para treinar cada árvore quanto nas variáveis consideradas na divisão dos nós durante o crescimento da árvore Esse processo de construção utiliza a técnica de bootstrap aggregating ou bagging onde cada árvore é treinada sobre uma amostra aleatória com reposição dos dados originais Paralelamente em cada divisão interna da árvore apenas um 83 Capítulo 2 Revisão da Literatura subconjunto aleatório de variáveis é considerado o que promove diversidade entre as árvores e evita que todas aprendam os mesmos padrões Como resultado o modelo agregado é capaz de capturar uma gama muito mais ampla de estruturas e padrões nos dados A combinação das previsões individuais das árvores realizada por votação majoritária no caso de classificação ou média aritmética em regressão reduz significativamente a variância do modelo sem aumentar o viés proporcionando maior estabilidade e generalização Essa característica torna o Random Forest extremamente apropriado para lidar com problemas complexos especialmente em contextos onde os dados possuem alta dimensionalidade ruído colinearidade entre variáveis ou relações não lineares difíceis de modelar com métodos tradicionais Sua aplicabilidade abrange uma grande diversidade de domínios desde bioinformática onde é utilizado na análise de expressão gênica até finanças marketing diagnósticos médicos e análise preditiva de comportamento do consumidor No campo da saúde por exemplo a Random Forest tem sido aplicada com sucesso para prever doenças crônicas como diabetes hipertensão ou doenças cardíacas utilizando bases de dados compostas por variáveis clínicas como idade IMC níveis de colesterol histórico familiar e hábitos de vida A capacidade do modelo de detectar interações complexas entre atributos e a sua robustez diante de outliers e dados desbalanceados são diferenciais decisivos nesse tipo de aplicação onde decisões baseadas em dados podem impactar diretamente na qualidade do tratamento e na alocação de recursos hospitalares Outro ponto positivo relevante da Random Forest é sua capacidade de estimar a importância relativa das variáveis feature importance Essa funcionalidade oferece uma visão hierárquica dos atributos mais relevantes para as decisões do modelo contribuindo para a interpretabilidade dos resultados e facilitando a comunicação com públicos não técnicos Embora seja frequentemente caracterizado como uma técnica de caixa preta devido à complexidade da estrutura interna gerada pela floresta de árvores a análise de importância das variáveis e os métodos complementares como SHAP SHapley Additive exPlanations têm contribuído para a democratização do entendimento e da confiança em suas decisões mesmo em contextos sensíveis 84 Capítulo 2 Revisão da Literatura Do ponto de vista computacional a Random Forest apresenta boa escalabilidade e paralelismo sendo possível treinar múltiplas árvores de forma independente Isso permite sua aplicação em bases de dados extensas e em problemas de grande escala com eficiência e tempo de resposta aceitáveis Diante desse conjunto de atributos precisão preditiva robustez a ruído e variáveis irrelevantes flexibilidade e interpretação parcial a técnica Random Forest configurase como uma das ferramentas mais completas do repertório de ciência de dados contemporânea Sua inclusão neste trabalho visa não apenas oferecer uma comparação metodológica com técnicas como árvores de decisão isoladas e redes neurais mas também evidenciar sua eficácia na modelagem de fenômenos multivariados especialmente em contextos empresariais voltados à previsão e segmentação de clientes 2134 RNA Redes Neurais Artificiais As Redes Neurais Artificiais RNAs constituem uma classe de algoritmos de aprendizado de máquina inspirados no funcionamento do cérebro humano especialmente na forma como os neurônios biológicos transmitem sinais Em sua essência as RNAs são compostas por unidades computacionais interconectadas os chamados neurônios artificiais organizadas em camadas uma camada de entrada uma ou mais camadas ocultas e uma camada de saída Cada conexão entre os neurônios possui um peso ajustável que é modificado durante o processo de treinamento para minimizar o erro entre a saída prevista e o valor real O funcionamento básico das RNAs envolve a propagação da informação da entrada para a saída e em seguida a aplicação do algoritmo de retropropagação do erro backpropagation responsável por recalibrar os pesos sinápticos com base no gradiente do erro Esse mecanismo iterativo permite que a rede aprenda padrões complexos e realize tarefas como classificação regressão previsão e até mesmo geração de dados Conforme destacado por Rumelhart et al 1986 as redes neurais têm a capacidade de se adaptar a partir de exemplos aprendendo relações não explícitas nos dados por meio de treinamento supervisionado 85 Capítulo 2 Revisão da Literatura Essa capacidade de capturar relações não lineares e interações entre variáveis torna as RNAs particularmente adequadas para contextos de alta complexidade onde modelos estatísticos tradicionais apresentam limitações Um exemplo emblemático dessa superioridade é apresentado por Pollak 2021 que demonstrou o desempenho superior das redes neurais na previsão do valor do tempo de vida do cliente Customer Lifetime Value CLV especialmente em bases com forte heterogeneidade de comportamento Ao aprender representações latentes dos padrões históricos de consumo as RNAs conseguiram prever o CLV com maior precisão e menor erro absoluto médio quando comparadas a modelos baseados em regressão ou árvores de decisão Outro estudo marcante é o de Su et al 2023 publicado no Journal of Marketing Analytics que utilizou redes neurais combinadas com transformações wavelet e mecanismos de atenção para prever o CLV em ambientes de publicidade online As wavelets permitiram decompor os dados de séries temporais em componentes de diferentes frequências o que possibilitou capturar variações comportamentais em diferentes escalas de tempo Já os grafos de atenção atuaram no reconhecimento de padrões voláteis e esparsos aprendendo representações eficazes dos usuários e melhorando significativamente a robustez das previsões Tal abordagem destaca a flexibilidade das RNAs em lidar com dados temporais não estacionários e fragmentados características comuns em plataformas digitais Apesar de seu potencial expressivo as redes neurais frequentemente enfrentam críticas em relação à sua baixa interpretabilidade De fato por serem compostas por múltiplas camadas de transformações matemáticas complexas elas funcionam como verdadeiras caixaspretas dificultando a compreensão direta de como a decisão foi tomada Essa limitação motivou o desenvolvimento do campo da XAI Explainable Artificial Intelligence que visa tornar os modelos de IA mais transparentes e compreensíveis para seres humanos Estudos como os de Adadi e Berrada 2018 e Arrieta et al 2020 apontam diversas técnicas para explicabilidade como LIME SHAP e visualizações de ativação de camadas internas que auxiliam analistas a identificar as características mais influentes em cada predição Além disso pesquisas como a de Xie et al 2019 validam a aplicação das RNAs em contextos práticos como a previsão de churn abandono de clientes 86 Capítulo 2 Revisão da Literatura utilizando dados transacionais e demográficos de clientes em tempo real Os resultados mostraram que as RNAs não apenas atingem altos níveis de acurácia mas também são capazes de identificar clientes em risco antes de eventos críticos permitindo ações proativas por parte das empresas Em síntese as Redes Neurais Artificiais constituem uma poderosa ferramenta de modelagem preditiva destacandose pela sua capacidade de generalizar padrões em grandes volumes de dados mesmo quando as relações entre variáveis são complexas não lineares ou desconhecidas No entanto essa sofisticação exige maior esforço computacional e soluções específicas para interpretação sobretudo quando a transparência é crucial para decisões sensíveis ou reguladas Ainda assim com o avanço das técnicas de interpretabilidade as RNAs continuam sendo protagonistas em aplicações de ciência de dados inteligência artificial e análise de comportamento do consumidor MOLNAR 2022 2135 AG Algoritmos Genéticos Os Algoritmos Genéticos AGs representam uma das abordagens mais inovadoras dentro do campo da inteligência artificial e da ciência de dados especialmente no que se refere à resolução de problemas de otimização e busca em espaços complexos de soluções Inspirados nos mecanismos naturais de evolução biológica como a seleção natural o cruzamento genético e a mutação os AGs simulam de forma computacional o processo de sobrevivência dos mais aptos para encontrar iterativamente soluções de alto desempenho Esses algoritmos operam a partir de uma população inicial de soluções aleatórias codificadas geralmente em estruturas semelhantes a cadeias de DNA cromossomos A cada geração os indivíduos mais adaptados isto é as soluções com melhor desempenho segundo uma função de avaliação fitness são selecionados para reprodução gerando novas soluções por meio de operadores de cruzamento e mutação Ao longo de múltiplas iterações o algoritmo converge para soluções cada vez mais adequadas ao problema proposto mesmo em ambientes de alta complexidade e múltiplas variáveis 87 Capítulo 2 Revisão da Literatura No contexto de mineração de dados e aprendizado de máquina os algoritmos genéticos têm se mostrado ferramentas extremamente valiosas para a modelagem preditiva e a otimização de modelos Sua flexibilidade permite que sejam aplicados tanto na seleção de atributos relevantes quanto na definição de parâmetros ideais para outros algoritmos preditivos Um exemplo notável é apresentado por Verbeke et al 2011 que exploram a aplicação da técnica AntMiner um algoritmo baseado em colônia de formigas Ant Colony Optimization ACO que incorpora conceitos dos AGs para desenvolver classificadores baseados em regras A grande vantagem dessa abordagem está na sua capacidade de gerar modelos preditivos que além de serem eficazes em termos de acurácia são também facilmente interpretáveis por usuários não técnicos um diferencial essencial em ambientes corporativos que demandam decisões justificáveis e transparentes como no caso da previsão de churn de clientes Em outro estudo Verhoeven et al 2023 demonstram como os AGs podem ser aplicados de forma eficaz na otimização da gestão de receitas particularmente em cenários que envolvem planejamento de recursos alocação de demanda e mix de produtos sob condições de incerteza Nessas situações os algoritmos genéticos destacamse por sua habilidade de explorar o espaço de busca de forma inteligente evitando soluções locais e encontrando configurações robustas que atendem simultaneamente a múltiplos objetivos e restrições O ciclo evolutivo promovido pelos AGs seleção cruzamento e mutação permite a adaptação contínua do modelo às particularidades do problema analisado o que os torna especialmente úteis em cenários de alta dimensionalidade ausência de soluções analíticas e relações não lineares entre variáveis Sua capacidade de incorporação de conhecimento prévio do domínio também contribui para a geração de modelos mais relevantes e aderentes à realidade prática A Figura abaixo ilustra de forma esquemática o funcionamento geral de um Algoritmo Genético desde a criação da população inicial até a convergência para uma solução otimizada Figura 10 Estrutura de Funcionamento de um Algoritmo Genético 88 Capítulo 2 Revisão da Literatura Fonte Adaptado pelo autor 2025 Ao comparar os AGs com outras técnicas de aprendizado de máquina discutidas neste trabalho como Árvores de Decisão Random Forests e Redes Neurais Artificiais percebese que cada abordagem oferece vantagens distintas As Árvores de Decisão e a Random Forest são valorizadas por sua capacidade interpretativa e estabilidade preditiva as Redes Neurais se destacam pela flexibilidade e acurácia em dados complexos e volumosos e os Algoritmos Genéticos por sua vez sobressaemse em problemas de otimização multivariada onde a busca por uma configuração ótima é mais importante do que a simples classificação Dessa forma os AGs não competem com essas técnicas mas sim as complementam permitindo a construção de pipelines híbridos de modelagem e análise nos quais a robustez precisão e interpretabilidade são maximizadas Seu uso estratégico alinhado ao conhecimento do domínio e aos objetivos analíticos 89 Capítulo 2 Revisão da Literatura representa uma poderosa alternativa para transformar dados brutos em insights acionáveis em diversas áreas como marketing logística saúde e finanças 22 SEGMENTAÇÃO DE CLIENTES No contexto empresarial contemporâneo marcado por mercados altamente competitivos dinâmicos e saturados as organizações enfrentam desafios cada vez mais complexos para fidelizar clientes manter uma base de consumidores engajada e otimizar processos de venda que demandam personalização e agilidade Nesse cenário a segmentação de clientes se revela como uma metodologia estratégica imprescindível para a formulação de ações de marketing mais eficazes o desenvolvimento de campanhas direcionadas a melhoria da retenção e sobretudo a maximização do valor do tempo de vida do cliente LTV Customer Lifetime Value indicador que mensura o retorno financeiro potencial que cada cliente pode gerar ao longo de sua relação com a empresa Para garantir o sucesso dessa abordagem é essencial a aplicação de técnicas analíticas e estatísticas robustas que assegurem a qualidade e a relevância dos segmentos formados Isso inclui a avaliação criteriosa da pureza e uniformidade interna dos grupos de modo a garantir que os clientes agrupados compartilhem características e comportamentos similares a clara diferenciação entre os segmentos para que cada grupo represente um perfil distinto e estrategicamente útil a aplicação rigorosa de testes de hipóteses para validar estatisticamente as diferenças observadas além da análise das correlações entre os segmentos e variáveis de negócio relevantes como ticket médio frequência de compra e canais de aquisição Tais análises são fundamentais não só para validar a robustez dos agrupamentos mas também para transformar dados em insights práticos que embasem decisões estratégicas e operacionais da organização Este estudo aborda de maneira sistemática os múltiplos aspectos interligados da segmentação de clientes Inicialmente focase na avaliação da coesão interna dos segmentos garantindo que cada grupo apresente alta homogeneidade o que facilita a compreensão de perfis de clientes e a personalização de estratégias Posteriormente explorase a diferenciação entre grupos assegurando que os segmentos sejam suficientemente distintos para 90 Capítulo 2 Revisão da Literatura justificar ações de marketing diferenciadas e específicas potencializando o impacto das campanhas e a eficácia do relacionamento com o cliente Além disso os testes de hipóteses desempenham papel crucial ao fornecer uma base estatística para comparar segmentos confirmando que as diferenças observadas são significativas e não fruto do acaso Complementarmente a análise de correlação entre segmentos e indicadores de desempenho do negócio permite identificar quais grupos apresentam maior potencial para contribuir com o crescimento e a rentabilidade da empresa direcionando recursos para iniciativas com maior retorno sobre investimento ROI Por fim o estudo aprofundase na análise dos indicadores financeiros centrais para a gestão de clientes como o Custo de Aquisição de Cliente CAC e o Customer Lifetime Value LTV A compreensão detalhada desses conceitos possibilita avaliar a rentabilidade e a viabilidade econômica dos segmentos orientando a definição de estratégias que promovam crescimento sustentável e equilíbrio financeiro Essa visão integrada entre análise estatística segmentação estratégica e métricas financeiras configurase como um diferencial competitivo permitindo às organizações não apenas responder às demandas atuais do mercado mas também antecipar oportunidades otimizar investimentos e fortalecer o relacionamento com diferentes perfis de clientes 221 Pureza E Uniformidade Dos Segmentos A pureza e a uniformidade são critérios fundamentais para avaliar a consistência interna e a qualidade dos segmentos ou grupos formados em um conjunto de dados especialmente no contexto da segmentação de clientes A pureza referese à proporção de membros dentro de um segmento que compartilham uma mesma característicaalvo evidenciando a predominância de uma categoria específica seja um perfil demográfico comportamento de consumo ou faixa etária Em outras palavras um segmento puro indica que a maior parte dos elementos pertence a uma única classe bem definida o que facilita a interpretação e aplicação prática do grupo 91 Capítulo 2 Revisão da Literatura Por outro lado a uniformidade analisa a homogeneidade das características internas do segmento em múltiplas dimensões Ela mede o grau de similaridade entre os membros do grupo considerando diferentes atributos simultaneamente o que confere uma visão mais ampla da coesão do segmento Uma alta uniformidade significa que os clientes dentro do grupo compartilham um conjunto de características semelhantes reforçando a robustez e a validade do agrupamento A avaliação combinada da pureza e da uniformidade é essencial para verificar se os agrupamentos gerados possuem coesão interna suficiente para serem úteis do ponto de vista analítico e estratégico Grupos homogêneos que apresentam alta pureza e uniformidade indicam que as necessidades e comportamentos dos clientes são mais alinhados aumentando a probabilidade de sucesso das estratégias personalizadas como campanhas de marketing direcionadas ofertas segmentadas e planos de fidelização específicos Para mensurar esses critérios ferramentas computacionais baseadas em Python são frequentemente utilizadas com o apoio de bibliotecas como scikitlearn numpy e pandas que possibilitam cálculos quantitativos precisos e análises estatísticas detalhadas No processo de avaliação diferentes cenários são possíveis Alta Pureza Quando a maioria dos membros do segmento compartilha a mesma característica dominante indicando uma forte coesão interna e maior previsibilidade do comportamento dos clientes o que facilita a formulação de ações específicas e eficazes Baixa Pureza Quando o grupo apresenta uma mistura significativa de características distintas revelando uma ligação interna fraca e alta heterogeneidade o que pode sugerir a necessidade de revisitar os critérios de segmentação ou realizar um reagrupamento para aprimorar a consistência dos grupos A uniformidade pode ser medida por meio da Entropia um conceito extraído da Teoria da Informação que quantifica o grau de incerteza ou desordem em um conjunto de dados Na análise dos segmentos a entropia assume um papel crucial 92 Capítulo 2 Revisão da Literatura Baixa Entropia Indica alta uniformidade significando que os membros do grupo são bastante semelhantes com pouca variação interna o que fortalece a utilidade do segmento para ações direcionadas e específicas Alta Entropia Reflete grande diversidade dentro do segmento sugerindo baixa uniformidade e dificultando a aplicação de estratégias padronizadas pois o comportamento dos membros é mais disperso Em suma segmentos considerados puros e uniformes com alta pureza e baixa entropia são preferíveis pois oferecem maior clareza interpretativa e permitem o desenvolvimento de ações de marketing e relacionamento mais eficazes e direcionadas Esses grupos fornecem uma base sólida para a personalização o que é fundamental para a maximização do valor do cliente e a otimização dos recursos da organização Exemplificando essa abordagem Dahana et al 2019 investigaram a pureza e uniformidade dos segmentos baseandose em características relacionadas ao estilo de vida e comportamento de compra evidenciando que grupos bem definidos aprimoram significativamente a precisão das previsões do Customer Lifetime Value LTV Já Verbeke et al 2011 destacam o uso de algoritmos genéticos como o AntMiner para garantir a coesão interna dos grupos promovendo agrupamentos fundamentados em regras claras e interpretáveis o que facilita a aplicação prática dos resultados por profissionais de marketing e analistas de dados 222 Diferenciação Entre Segmento A distinção entre os grupos é fundamental para garantir que sejam exclusivos e abrangentes ao mesmo tempo Essa distinção clara assegura que cada grupo represente um perfil específico e não se sobreponha a outros o que facilita a alocação eficiente de recursos e a definição de mensagens e ações customizadas Uma clara separação entre os grupos facilita a criação de estratégias de marketing direcionadas tornandoas mais eficazes e eficientes já que permite identificar necessidades comportamentos e preferências de forma mais precisa Essa diferenciação torna possível a personalização de campanhas ofertas canais de 93 Capítulo 2 Revisão da Literatura comunicação e até mesmo o desenvolvimento de produtos específicos para determinados segmentos A diferenciação entre grupos pode ser medida por meio de diferentes métricas e métodos estatísticos que auxiliam na quantificação da distância variação e significância entre os agrupamentos Alguns deles são amplamente utilizados na literatura e na prática analítica Distância entre Centros dos Agrupamentos Centroides Análise de Variância ANOVA Teste de Hipóteses Testes T A distância entre centros dos agrupamentos Centroides é uma maneira direta e intuitiva de avaliar a diferenciação entre grupos calculando a distância euclidiana ou outras métricas como Manhattan ou Mahalanobis entre os centroides pontos médios dos agrupamentos Quanto maior for essa distância maior será a diferenciação entre os grupos em termos das variáveis consideradas na segmentação ou seja Alta Distância Sinaliza uma grande diferenciação entre os grupos sugerindo que os agrupamentos são bem separados no espaço de atributos e possuem características únicas o que favorece o uso prático dos segmentos Baixa Distância Indica uma baixa diferenciação mostrando que os agrupamentos são semelhantes e podem não representar grupos distintos de forma clara exigindo possivelmente revisão dos critérios de segmentação A Análise de Variância ANOVA é uma técnica estatística utilizada para comparar as médias de várias amostras ou grupos e verificar se pelo menos uma delas difere significativamente das outras Esse método é essencial para validar se as diferenças observadas entre os grupos são estatisticamente significativas ou se podem ser atribuídas ao acaso Os principais resultados da ANOVA são 94 Capítulo 2 Revisão da Literatura Um Festatístico alto e um valorp baixo geralmente 005 indicam que pelo menos uma média de grupo difere significativamente das outras sugerindo distinção real entre os grupos Um Festatístico baixo e um valorp alto sugerem que não há evidências suficientes para afirmar que as médias são diferentes enfraquecendo a validade da segmentação Os testes de hipótese Testes T são utilizados para comparar as médias de dois grupos e verificar se são estatisticamente diferentes entre si Esses testes são úteis em análises parapar especialmente quando o número de grupos é pequeno Para comparações múltiplas a ANOVA é mais apropriada embora os testes T continuem úteis em análises pontuais As interpretações são similares Um Testatístico alto e um valorp baixo apontam que as médias dos dois grupos são significativamente diferentes Um Testatístico baixo e um valorp alto indicam que não há diferença estatisticamente significativa entre as médias dos grupos comparados De acordo com estudos de Dahana et al 2019 a diferenciação entre grupos foi feita com base em características comportamentais e psicográficas dos consumidores resultando em segmentos que apresentaram diferenças significativas em métricas como o valor vitalício do cliente LTV permitindo estratégias específicas e mais rentáveis para cada perfil Da mesma forma Cumps et al 2009 empregaram técnicas baseadas em algoritmos genéticos para estruturar grupos claramente distintos assegurando que cada agrupamento tivesse identidade própria e viabilizando a implementação de estratégias comerciais mais direcionadas eficazes e alinhadas aos objetivos do negócio 223 Matriz De Confusão 95 Capítulo 2 Revisão da Literatura A matriz de confusão é uma ferramenta essencial e amplamente utilizada para avaliar o desempenho de modelos de classificação como os empregados para prever o Valor do Tempo de Vida do Cliente LTV ou a probabilidade de churn rotatividade Ela organiza em forma tabular os resultados das previsões feitas pelo modelo em relação aos valores reais conhecidos permitindo a identificação clara de acertos e erros cometidos pelo algoritmo Essa visualização facilita o diagnóstico de problemas como desbalanceamento de classes ou viés de previsão A matriz apresenta os seguintes elementos fundamentais Verdadeiros Positivos VP instâncias positivas corretamente classificadas como positivas Falsos Positivos FP instâncias negativas incorretamente classificadas como positivas Verdadeiros Negativos VN instâncias negativas corretamente classificadas como negativas Falsos Negativos FN instâncias positivas incorretamente classificadas como negativas A partir de uma matriz de confusão diversas métricas de desempenho podem ser extraídas para fornecer uma análise detalhada da performance do classificador permitindo avaliar sua eficácia sob diferentes perspectivas As principais métricas incluem Acurácia A proporção total de previsões corretas VP VN sobre o total de amostras analisadas Representa uma visão geral do desempenho do modelo mas pode ser enganosa em casos de classes desbalanceadas 96 Capítulo 2 Revisão da Literatura Precisão ou Valor Preditivo Positivo Mede a proporção de verdadeiros positivos entre todos os casos classificados como positivos Indica o quão confiável é o modelo quando prevê uma classe positiva Recall ou SensibilidadeRevocação Mede a capacidade do modelo em identificar corretamente todas as instâncias positivas reais É especialmente importante em contextos onde a omissão de positivos é crítica como retenção de clientes com alto LTV F1Score Combina precisão e recall em uma única métrica calculando a média harmônica entre elas É útil quando há necessidade de balancear ambas as métricas especialmente em cenários com dados desbalanceados Especificidade Mede a capacidade do modelo de identificar corretamente as instâncias negativas ou seja quantos verdadeiros negativos foram corretamente detectados entre todos os casos realmente negativos 97 Capítulo 2 Revisão da Literatura Essas métricas são especialmente valiosas em contextos empresariais pois permitem entender o desempenho de modelos que classificam clientes com diferentes potenciais de retorno LTV alto médio ou baixo bem como antecipar clientes propensos à evasão No estudo de Zhang et al 2022 a matriz de confusão foi empregada como ferramenta central para avaliar a precisão das previsões do LTV evidenciando a efetividade do método proposto na classificação correta dos clientes com maior potencial de receita Os autores demonstraram que o uso de métricas derivadas da matriz ajudou a aprimorar os modelos por meio de ajustes finos nos parâmetros e balanceamento entre classes Similarmente Verbeke et al 2011 também utilizam a matriz de confusão para avaliar a acurácia dos modelos preditivos especialmente na previsão da rotatividade de clientes churn ressaltando a importância dessa ferramenta na validação e no refinamento contínuo dos modelos de previsão A análise detalhada dos erros de classificação permitiu aos autores identificar padrões ocultos e ajustar algoritmos para melhorar a sensibilidade a classes minoritárias que são de alta relevância estratégica para o negócio 224 testes e hipóteses Os testes de hipóteses são amplamente utilizados para comparar grupos e determinar se as diferenças observadas nas características dos clientes possuem significância estatística Essas análises permitem inferir com base em dados amostrais se as variações entre os grupos são reais ou se poderiam ter ocorrido por acaso contribuindo para decisões mais fundamentadas e confiáveis Ao aplicar testes de hipóteses no contexto de segmentação evitase a adoção de estratégias baseadas em padrões espúrios ou interpretações subjetivas promovendo maior rigor na análise dos dados Entre os testes mais comuns estão o teste t de Student para comparação entre dois grupos e a ANOVA para múltiplos grupos Ambos são úteis para comparar médias de variáveis como frequência de compra valor médio gasto ou engajamento digital A interpretação dos resultados é feita com base no valorp que 98 Capítulo 2 Revisão da Literatura representa a probabilidade de se observar uma diferença tão extrema quanto a verificada caso a hipótese nula de que não há diferença seja verdadeira Assim Um valorp baixo geralmente menor que 005 leva à rejeição da hipótese nula indicando que a diferença observada é estatisticamente significativa Um valorp alto sugere que não há evidência suficiente para afirmar que os grupos diferem significativamente No estudo conduzido por Zhang et al 2022 foram empregados testes de hipóteses para comparar diferentes grupos de clientes com base em atributos demográficos e comportamentais A análise estatística confirmou que as variações entre os grupos não eram aleatórias validando a importância dessas diferenças para a segmentação e consequentemente para a definição de estratégias de marketing mais direcionadas e personalizadas O uso criterioso de testes permitiu identificar quais variáveis mais influenciam o valor do tempo de vida do cliente LTV e como diferentes perfis se comportam ao longo do ciclo de relacionamento com a empresa Adicionalmente Verhoeven et al 2023 empregaram essas análises em um contexto voltado à gestão de receitas avaliando a eficácia de diversas estratégias aplicadas a grupos distintos de clientes Os testes de hipóteses foram essenciais para verificar quais abordagens apresentaram diferenças significativas nos resultados obtidos evidenciando a utilidade desses testes na validação empírica das práticas adotadas na segmentação e no planejamento de campanhas personalizadas Os resultados reforçaram que estratégias baseadas em análises estatisticamente embasadas tendem a apresentar maior retorno e previsibilidade o que é vital para a tomada de decisões em ambientes competitivos 225 Análise de correlação entre segmentos e variáveis de negócios A análise de correlação investiga as relações estatísticas entre os grupos de clientes e indicadores empresariais relevantes como receita frequência de compras ticket médio taxa de recompra e especialmente o Valor do Tempo de Vida do Cliente LTV Esse tipo de análise é fundamental para identificar quais segmentos contribuem mais significativamente para o desempenho do negócio 99 Capítulo 2 Revisão da Literatura possibilitando uma visão estratégica baseada em dados e não apenas em suposições A correlação é geralmente quantificada por coeficientes como o coeficiente de correlação de Pearson que mede a força e direção de uma relação linear entre duas variáveis Valores próximos de 1 indicam correlação positiva forte valores próximos de 1 indicam correlação negativa forte e valores próximos de 0 indicam ausência de relação linear significativa Essa métrica é essencial para avaliar o impacto potencial de diferentes segmentos nas variáveis de negócio guiando decisões como alocação de orçamento personalização de ofertas e definição de prioridades comerciais No estudo realizado por Zhang et al 2022 uma análise correlacional foi conduzida com o intuito de examinar a relação entre os grupos de clientes e o LTV revelando que determinados grupos apresentavam uma correlação mais expressiva com altos valores de LTV Isso permitiu à equipe identificar quais perfis de clientes mereciam maior atenção em termos de retenção e investimento em marketing reforçando a importância de priorizar segmentos com maior potencial de retorno financeiro A importância da análise de correlação na identificação de padrões e na compreensão do impacto dos diferentes segmentos nas variáveis de negócios é amplamente reconhecida na literatura de marketing e gestão Segundo Malhotra 2018 essa ferramenta estatística oferece aos gestores uma visão analítica sobre como as características dos segmentos de mercado se relacionam com indicadores de desempenho auxiliando na tomada de decisões estratégicas baseadas em evidências concretas Ao permitir a identificação de relações ocultas entre os perfis de clientes e os resultados da empresa a análise de correlação apoia o direcionamento mais preciso de recursos e esforços para os grupos de clientes mais rentáveis engajados ou promissores Com isso as organizações conseguem otimizar campanhas melhorar a alocação de orçamento e aprimorar a performance de vendas marketing e atendimento garantindo que as decisões estejam alinhadas com o comportamento real do mercado 100 Capítulo 2 Revisão da Literatura 226 Interpretação Dos Resultados E Indicadores A interpretação dos resultados constitui uma etapa crítica dentro do ciclo de desenvolvimento de modelos analíticos e preditivos especialmente no contexto da segmentação de clientes e previsão de métricas de valor como o Lifetime Value LTV Tratase da fase em que os resultados quantitativos obtidos ao longo do processo de modelagem são transformados em informações qualitativas compreensíveis e aplicáveis ao contexto organizacional com o objetivo de embasar decisões estratégicas fundamentadas em dados A eficácia de um modelo é comumente avaliada por meio de indicadores de desempenho como acurácia precisão recall e F1score os quais oferecem diferentes perspectivas sobre a qualidade das previsões A seleção e interpretação adequadas desses indicadores são essenciais para entender não apenas se o modelo funciona mas como e em que situações ele apresenta melhores desempenhos A acurácia por exemplo mede a proporção de previsões corretas entre todas as realizadas sendo uma métrica intuitiva e útil em contextos em que as classes estão balanceadas No entanto em situações com desbalanceamento de classes essa métrica pode mascarar o desempenho real do modelo A precisão indica a proporção de verdadeiros positivos entre todas as predições positivas feitas pelo modelo sendo especialmente relevante em cenários em que falsos positivos devem ser minimizados como em campanhas de retenção de clientes O recall ou sensibilidade mede a capacidade do modelo de identificar corretamente todos os casos positivos o que é crucial quando o custo de perder instâncias positivas como clientes de alto valor que estão prestes a churnar é elevado 101 Capítulo 2 Revisão da Literatura A pontuação F1 combina precisão e recall em uma média harmônica balanceando ambas as métricas em um único valor Essa medida é particularmente valiosa em contextos de classes desbalanceadas como frequentemente ocorre em análises de churn detecção de fraudes ou segmentações com grupos de baixa representatividade No estudo de Dahana et al 2019 por exemplo a interpretação dos resultados foi conduzida com base em uma análise integrada desses indicadores Os autores demonstraram que os modelos aplicados à segmentação de clientes e à estimativa do LTV apresentaram níveis elevados de F1score e recall evidenciando sua robustez e confiabilidade especialmente no que diz respeito à capacidade de identificar clientes de alto valor potencial Essa abordagem reforça a importância de considerar múltiplas métricas para compreender os pontos fortes e limitações do modelo de maneira abrangente Além da análise técnica dos resultados a compreensão contextual dos achados é essencial para garantir que os insights gerados tenham aplicabilidade prática no ambiente de negócios Verbeke et al 2011 argumentam que a simples obtenção de métricas estatisticamente satisfatórias não garante a utilidade dos modelos sendo fundamental realizar uma interpretação aprofundada e orientada ao negócio Isso inclui compreender como os segmentos identificados se relacionam com as estratégias comerciais da empresa quais variáveis influenciam significativamente o comportamento dos clientes e quais ações podem ser derivadas diretamente das previsões realizadas como campanhas direcionadas melhorias no atendimento ou políticas de fidelização Dessa forma a etapa de interpretação atua como um elo entre a modelagem analítica e a ação gerencial transformando resultados técnicos em conhecimento aplicado que contribui efetivamente para a melhoria dos processos decisórios e para a maximização do valor gerado pela análise de dados 227 CAC e LTV 102 Capítulo 2 Revisão da Literatura O Valor do Tempo de Vida do Cliente conhecido pela sigla LTV Customer Lifetime Value é uma métrica central no marketing orientado por dados e na inteligência analítica que mensura o valor econômico total que uma empresa espera obter ao longo de todo o relacionamento com um cliente Essa métrica considera não apenas o valor imediato das compras mas também incorpora a frequência das interações a fidelidade o engajamento contínuo e as indicações que o cliente pode gerar refletindo assim o impacto financeiro futuro que o cliente representa para a organização Pesquisas recentes como as conduzidas por Pollak 2021 Zhang et al 2022 Li et al 2022 Afiniti 2022 e Su et al 2023 destacam o LTV como um indicador estratégico imprescindível para a sustentabilidade e expansão dos negócios em mercados altamente competitivos e voláteis A dinâmica contemporânea dos mercados marcada pela aceleração das mudanças econômicas e pela transformação constante do comportamento do consumidor reforça a necessidade das empresas em cultivar relacionamentos duradouros e rentáveis A fidelização de clientes deixou de ser um diferencial competitivo opcional para se converter em um pilar essencial à sobrevivência empresarial especialmente em setores que exigem rápida adaptação e inovação contínua Nesse sentido o LTV emerge como uma variável crítica nas tomadas de decisão pois oferece uma visão abrangente do valor que cada cliente aporta ao longo do tempo superando a visão limitada de lucro por transação isolada Na prática o entendimento aprofundado do LTV permite às empresas realizar segmentações mais refinadas direcionar campanhas de marketing com maior precisão e priorizar investimentos em perfis de clientes que apresentam maior potencial de retorno Essa abordagem resulta em uma alocação otimizada de recursos eleva a rentabilidade por cliente e melhora significativamente as taxas de retenção e satisfação Além disso a métrica contribui para a avaliação do retorno sobre investimento ROI em ações de aquisição e fidelização fornecendo uma base sólida para decisões de investimento mais fundamentadas e eficazes Para uma gestão comercial robusta e eficiente o conhecimento do LTV deve ser articulado com o Custo de Aquisição de Cliente CAC A análise conjunta dessas métricas gera indicadoreschave como a razão LTVCAC que é amplamente utilizada para medir a viabilidade e a sustentabilidade financeira das estratégias de crescimento Quando o LTV supera consistentemente o CAC indica 103 Capítulo 2 Revisão da Literatura se que a empresa está obtendo lucro sustentável a partir do investimento em seus clientes Por outro lado um LTV inferior ao CAC aponta para a necessidade urgente de revisão das estratégias de aquisição e retenção evitando que o negócio comprometa sua rentabilidade a longo prazo Além disso a integração do LTV com a segmentação de clientes enriquece a compreensão do comportamento e do valor de diferentes perfis orientando estratégias comerciais e de relacionamento que maximizam o impacto financeiro Essa integração possibilita o desenvolvimento de modelos preditivos e classificatórios sofisticados capazes de identificar clientes com alto potencial de valor ajustar canais de comunicação estabelecer políticas de preços e descontos mais eficazes e otimizar o desempenho das equipes comerciais e de marketing Em suma o LTV é uma métrica estratégica que transcende o simples acompanhamento de vendas fornecendo uma perspectiva de longo prazo que fortalece a capacidade das empresas de crescerem de maneira sustentável competitiva e orientada ao cliente 2271 CAC Customer Acquisition Cost O Custo de Aquisição de Clientes CAC é um indicadorchave que mede os gastos totais com marketing e vendas realizados com o objetivo de conquistar novos clientes Tratase portanto de uma estimativa do investimento médio necessário para converter um lead em cliente ativo incluindo ações diretas e indiretas que influenciam o processo de decisão do consumidor Como destacado por Wu et al 2023 o CAC tem papel central nas análises de desempenho comercial e sustentabilidade financeira de empresas orientadas por dados Na concepção de Burelli 2019 a maioria das empresas aloca uma parte significativa de sua receita nas áreas de marketing e vendas com a expectativa de retorno na forma de expansão de base de clientes e aumento de receita Nesse sentido é crucial que as organizações realizem uma análise detalhada sobre o montante investido em canais específicos como mídia paga inbound marketing feiras equipes comerciais entre outros e o número de clientes efetivamente captados por meio de cada um deles Essa análise é fundamental para identificar os 104 Capítulo 2 Revisão da Literatura canais mais eficientes e lucrativos otimizando os esforços comerciais e maximizando o retorno sobre investimento como também é ressaltado por Pollak 2021 Em conformidade com essa perspectiva Afiniti 2022 destaca que a aquisição de um novo cliente frequentemente requer um investimento inicial elevado que não se limita à comunicação e publicidade do produto ou serviço mas também envolve custos operacionais com equipes de vendas ferramentas de CRM estrutura de atendimento e treinamentos Esse esforço financeiro visa estruturar e escalar o negócio especialmente em mercados altamente competitivos ou em fases de expansão acelerada Como resultado a aquisição de clientes pode representar uma das maiores despesas operacionais de uma organização podendo em cenários extremos ultrapassar 50 do faturamento bruto especialmente em startups ou empresas em estágio inicial Dada a materialidade do investimento em aquisição o acompanhamento rigoroso e contínuo do CAC tornase essencial para uma gestão orientada por indicadores Este KPI permite que líderes de vendas analistas de marketing e executivos de alto escalão como CEOs e CFOs tenham uma visão clara do crescimento atual do negócio e da viabilidade econômica desse crescimento no médio e longo prazo Ele ainda possibilita identificar gargalos desperdícios e oportunidades de melhoria nos processos comerciais e de comunicação Nessa perspectiva o cálculo do CAC pode ser representado pela seguinte fórmula CACCmv Nc Onde CAC é o Custo de Aquisição de Cliente Cmv é o custo total de marketing e vendas para a aquisição de clientes investimentos Nc é o número de novos clientes adquiridos 105 Capítulo 2 Revisão da Literatura Essa fórmula embora de aplicação conceitualmente simples exige cuidado na obtenção dos dados O desafio prático recai sobre a atribuição precisa dos investimentos aos canais corretos bem como a correta contabilização dos clientes originados em função desses gastos especialmente em contextos com múltiplos pontos de contato vendas indiretas ou ciclos longos de conversão É fundamental ressaltar que o CAC não inclui custos fixos de produção ou despesas administrativas tampouco investimentos em pesquisa e desenvolvimento suporte técnico jurídico ou financeiro Ele deve incluir exclusivamente os custos relacionados às áreas de vendas e marketing tais como salários de equipes comerciais mídia paga comissões plataformas de automação eventos e até mesmo custos incorridos com leads que não converteram em clientes já que fazem parte do custo médio de aquisição Assim para a sustentabilidade de um modelo de negócios o custo de aquisição de clientes não pode ser superior ao valor que esse cliente gera para a organização ao longo de seu relacionamento o Lifetime Value LTV Como enfatizado por Li et al 2022 a relação LTVCAC deve idealmente ser superior a 31 indicando que o valor gerado por um cliente supera amplamente o custo de aquisição garantindo rentabilidade e escalabilidade ao modelo comercial 2272 LTV Lifetime Value O Lifetime Value LTV de um cliente conforme já abordado anteriormente seção 228 referese ao valor financeiro total que um cliente gera para a empresa ao longo de todo o seu relacionamento com a marca Essa métrica projeta com base em dados históricos e estimativas futuras o montante líquido que a organização pode esperar obter de um cliente individual até o término do vínculo comercial Olnén 2022 complementa essa definição ao destacar que o LTV representa o lucro médio gerado pelo cliente no período analisado já considerando os custos variáveis associados ao seu ciclo de vida como atendimento suporte marketing de retenção e operação logística Isso reforça a importância de tratar o LTV não apenas 106 Capítulo 2 Revisão da Literatura como um indicativo de receita mas como uma medida direta de rentabilidade por cliente De forma mais precisa o LTV pode ser definido como a receita líquida total esperada pela empresa ao longo de todo o tempo em que o cliente se mantiver ativo ou seja subtraídos os custos diretamente atribuíveis ao atendimento de suas necessidades Dessa maneira ele permite avaliar a viabilidade econômica de estratégias de aquisição fidelização e desenvolvimento de relacionamento com diferentes segmentos de clientes Segundo a abordagem proposta por Zhang et al 2022 o cálculo do LTV deve considerar essencialmente três fatores fundamentais 1 Margem de Contribuição corresponde à receita anual gerada pelo cliente descontadas as despesas operacionais diretas envolvidas em seu atendimento Reflete o lucro líquido obtido com o cliente em cada período 2 Taxa de Retenção Retention Rate representa o percentual de clientes que permanecem ativos de um período para o outro sendo crucial para estimar a duração média do relacionamento e por consequência o valor total gerado 3 Taxa de Desconto expressa o custo de capital da empresa ou o valor do dinheiro no tempo É aplicada para converter os fluxos de caixa futuros gerados pelo cliente em valor presente permitindo uma avaliação realista da rentabilidade futura Além da estimativa do valor monetário o tempo de vida do cliente Lifetime ou LTR Lifetime Retention também é uma variável importante A seguir é apresentada a fórmula para o cálculo do Lifespan L baseado na churn rate LTRL 1 C Onde 107 Capítulo 2 Revisão da Literatura L é o tempo de vida útil esperado do cliente em períodos como anos ou meses C é a Churn Rate ou taxa de evasão dos clientes no período A fórmula da taxa de churn é CP I Em que P representa o número de clientes perdidos no período I é o número de clientes ativos no início do período Substituindo essa expressão na fórmula do Lifespan temos LTRL I P I Ou seja a fórmula final simplificada tornase LTRL I P Esse cálculo fornece uma estimativa direta da longevidade média dos clientes com base na proporção entre os clientes retidos e os perdidos Quanto menor a taxa de churn maior o tempo de vida do cliente refletindo um relacionamento mais estável e duradouro com maior potencial de geração de receita A partir da compreensão dessas fórmulas e dos conceitos de LTV e LTR verificase que o cálculo dessas métricas é fundamental para entender a viabilidade do negócio sua capacidade de gerar valor sustentável e sua eficiência na alocação de recursos em marketing e vendas Elas permitem antecipar retornos definir prioridades e orientar decisões estratégicas baseadas em dados Entretanto é importante ressaltar que nenhuma métrica quando analisada isoladamente é capaz de oferecer uma compreensão completa do cenário de 108 Capítulo 2 Revisão da Literatura negócios A análise conjunta do LTV do LTR e do CAC Custo de Aquisição de Clientes proporciona uma visão mais holística e acionável permitindo avaliar o equilíbrio entre aquisição retenção e rentabilidade Somente com essa perspectiva integrada é possível garantir a sustentabilidade e o crescimento saudável da base de clientes ao longo do tempo 23 SEGMENTAÇÃO DE CLIENTES B2B A segmentação de clientes no ambiente B2B BusinesstoBusiness constitui uma prática estratégica fundamental para organizações que almejam direcionar de forma mais eficaz seus recursos de marketing vendas e atendimento sobretudo em mercados de alta competitividade e com estruturas complexas de decisão Diferentemente do contexto B2C BusinesstoConsumer onde a segmentação costuma se basear em critérios demográficos psicográficos e comportamentais de consumidores individuais o B2B apresenta desafios adicionais exigindo abordagens multidimensionais e profundamente analíticas Essas abordagens precisam considerar entre outros fatores o potencial de lucratividade de cada cliente empresarial a previsibilidade do relacionamento a longo prazo o grau de alinhamento estratégico entre as soluções ofertadas e as necessidades do cliente e indicadores quantitativos fundamentais como o Lifetime Value LTV e o Custo de Aquisição de Clientes CAC que oferecem uma visão financeira do relacionamento KOTLER KELLER 2016 A análise segmentada da base de clientes quando orientada por dados e fundamentada em modelos analíticos preditivos ou classificatórios permite identificar perfis empresariais com maior propensão a gerar retorno financeiro contínuo Essa abordagem baseada em dados favorece decisões como a priorização de esforços comerciais em contas de alto valor a personalização de ofertas de produtos preços ou serviços conforme as demandas do segmento 109 Capítulo 2 Revisão da Literatura e a reavaliação da alocação orçamentária em canais de marketing prospecção e suporte de modo a otimizar o uso dos recursos disponíveis O ambiente B2B é marcado por características específicas que aumentam sua complexidade ciclos de venda mais longos e imprevisíveis envolvimento de múltiplos tomadores de decisão ex áreas técnica financeira e jurídica negociações altamente personalizadas e por vezes consultivas contratos de valor elevado e prazos longos menor volume de transações mas com maior impacto unitário na receita Diante desse cenário adotar uma estratégia de segmentação robusta e baseada em valor não é apenas recomendável mas imperativo para o sucesso organizacional e a sustentabilidade das ações comerciais no médio e longo prazo De acordo com Kumar 2018 empresas que adotam práticas de segmentação baseadas no valor do cliente apresentam resultados superiores em rentabilidade e fidelização além de reduzirem significativamente os custos com aquisição e retenção reflexo direto da maior assertividade nas ações Ademais a segmentação possibilita a personalização das comunicações produtos serviços e propostas de valor adaptandoos às necessidades dores e objetivos específicos de cada grupo ou vertical de clientes Essa customização orientada por dados não apenas melhora a experiência do cliente Customer Experience CX como também impulsiona os índices de retenção e reduz a taxa de evasão churn Pollak 2021 demonstra que a eficácia de ações de marketing personalizadas pode ser ampliada em até 30 quando são apoiadas por modelos de segmentação baseados em dados históricos e comportamento preditivo destacando o papel da inteligência comercial na formulação de estratégias centradas no cliente Assim a segmentação no B2B transcende o papel de agrupamento estático de contas e se posiciona como uma ferramenta dinâmica de gestão estratégica capaz de transformar dados em conhecimento e conhecimento em vantagem competitiva sustentável 110 Capítulo 2 Revisão da Literatura 231 Critérios relevantes para segmentação B2B A segmentação de clientes no ambiente B2B businesstobusiness exige uma abordagem criteriosa e multifacetada dada a complexidade e especificidade das relações comerciais entre empresas A literatura especializada aponta diversos critérios que podem ser empregados nesse processo cuja escolha está intrinsecamente ligada aos objetivos estratégicos do negócio à natureza do produto ou serviço oferecido e ao grau de maturidade analítica da organização De forma geral esses critérios podem ser organizados em três grandes categorias principais financeiros comportamentais e estratégicos Critérios Financeiros abrangem aspectos ligados ao desempenho econômico e capacidade financeira dos clientes corporativos Exemplos incluem o faturamento anual margem de lucro tamanho da empresa quantidade de colaboradores ou capital investido volume de compras e histórico de pagamentos Esses indicadores são essenciais para entender o potencial de investimento e o valor comercial de cada cliente além de auxiliar na priorização de esforços e recursos para segmentos com maior retorno esperado Critérios Comportamentais focam nas interações e padrões observados durante a jornada do cliente incluindo frequência e volume de compras lealdade à marca canais de compra preferidos tempo de relacionamento com a empresa e respostas a campanhas de marketing Esses fatores fornecem insights valiosos sobre o comportamento real dos clientes permitindo identificar segmentos com diferentes níveis de engajamento propensão à recompra e abertura para ofertas personalizadas Critérios Estratégicos envolvem características que refletem a importância e o alinhamento do cliente com os objetivos de longo prazo da empresa Entre eles destacamse o grau de influência no mercado potencial para parcerias estratégicas sinergia tecnológica perfil de inovação e maturidade digital Esses critérios ajudam a segmentar clientes não apenas pelo valor imediato mas também pelo papel que desempenham no ecossistema de negócios possibilitando a construção de relacionamentos duradouros e colaborativos 111 Capítulo 2 Revisão da Literatura A escolha e a combinação desses critérios devem ser orientadas por uma análise cuidadosa das necessidades específicas do negócio da disponibilidade e qualidade dos dados e da capacidade analítica da empresa Quando bem aplicados esses critérios viabilizam a criação de segmentos robustos relevantes e acionáveis que servem como base para estratégias comerciais mais eficazes campanhas de marketing direcionadas e uma gestão de relacionamento mais estratégica e personalizada no contexto B2B 2311 Critérios financeiros A literatura especializada identifica uma gama abrangente de critérios que podem ser utilizados no processo de segmentação de clientes no contexto B2B BusinesstoBusiness A escolha desses critérios depende em grande parte dos objetivos estratégicos do negócio do tipo de produto ou serviço oferecido da dinâmica do mercado de atuação e do nível de maturidade analítica e tecnológica da empresa À medida que as organizações avançam em seus processos de transformação digital e coleta de dados tornase possível aplicar segmentações mais refinadas e orientadas por insights Esses critérios podem ser agrupados de forma geral em três grandes categorias 1 Critérios Financeiros Consideram variáveis quantitativas que indicam a rentabilidade risco e potencial econômico do cliente Exemplos incluem Faturamento anual da empresacliente Ticket médio das compras realizadas Custo de Aquisição de Cliente CAC Lifetime Value LTV Margem de contribuição Volume de compras recorrentes Esses indicadores permitem priorizar contas com maior retorno financeiro esperado e avaliar a viabilidade econômica de estratégias específicas para cada 112 Capítulo 2 Revisão da Literatura grupo 2 Critérios Comportamentais Avaliam como o cliente interage com a empresa seus hábitos de compra frequência de relacionamento e respostas a campanhas comerciais ou de marketing Incluem Histórico de interações com canais de vendas online ou presencial Participação em programas de fidelidade ou eventos corporativos Nível de engajamento com conteúdos digitais emails webinars e books Tempo médio entre as compras buying cycle Velocidade de resposta em negociações Esses dados ajudam a identificar o nível de maturidade da conta seu potencial de crescimento e o tipo de abordagem comercial mais eficaz 3 Critérios Estratégicos Envolvem a adequação do cliente ao posicionamento da empresa e seu alinhamento com a proposta de valor visão de futuro ou até objetivos ESG Ambiental Social e Governança Exemplos Setor de atuação ex saúde varejo manufatura Modelo de negócio B2B B2C B2B2C etc Grau de sinergia tecnológica ou operacional com o portfólio atual Localização geográfica e potencial de expansão regional Potencial de parceria estratégica ou codesenvolvimento de soluções Esses critérios são fundamentais para selecionar contaschave key accounts definir nichos prioritários ou estruturar abordagens de vendas complexas como o AccountBased Marketing ABM A correta combinação entre essas dimensões permite que a segmentação B2B vá além da classificação superficial dos clientes promovendo uma visão mais holística e orientada a resultados Empresas que integram esses critérios de maneira sistemática conseguem priorizar oportunidades de maior valor otimizar a 113 Capítulo 2 Revisão da Literatura alocação de recursos comerciais e personalizar suas estratégias de relacionamento com maior precisão 2312Critérios comportamentais Os critérios comportamentais analisam o histórico de interação entre a empresa e seus clientes oferecendo insumos valiosos para a personalização de estratégias de marketing vendas e atendimento Ao contrário dos critérios puramente financeiros que focam na rentabilidade passada ou projetada os critérios comportamentais permitem avaliar o grau de engajamento maturidade e responsividade do cliente ao longo do tempo fornecendo uma visão mais rica sobre o relacionamento estabelecido com a organização Entre os principais exemplos de critérios comportamentais aplicáveis à segmentação B2B destacamse Frequência de compras e recorrência de pedidos identifica padrões de consumo regulares ou sazonais úteis para prever demandas e antecipar ofertas Tempo médio de relacionamento com a empresa mede a longevidade da parceria comercial o que pode estar correlacionado a confiança retenção e potencial de upselling Engajamento com canais de comunicação e suporte técnico avalia o envolvimento do cliente com emails chamadas reuniões abertura de chamados e uso de portais de autoatendimento Respostas a campanhas de marketing anteriores inclui taxas de abertura de emails cliques em links participação em eventos e conversões registradas em campanhas específicas DAHANA et al 2019 Esses dados são em geral extraídos de ferramentas integradas de gestão de relacionamento com o cliente CRM como Salesforce HubSpot ou Microsoft Dynamics bem como de plataformas de automação de marketing ex RD Station Mailchimp ActiveCampaign A análise conjunta dessas informações permite construir perfis de comportamento longitudinal com destaque para mudanças no 114 Capítulo 2 Revisão da Literatura padrão de consumo queda no engajamento ou sinais de churn iminente possibilitando ações preventivas Além disso esses critérios comportamentais conferem dinamismo à segmentação pois possibilitam que os segmentos evoluam com o tempo um conceito alinhado à segmentação preditiva e aos princípios de Customer Success Quando aplicados de forma consistente eles permitem à empresa desenvolver estratégias mais precisas e oportunas como campanhas de reativação de clientes inativos ofertas específicas baseadas em comportamento recente e até mesmo fluxos automatizados de nutrição e fidelização 2313 Critérios estratégicos Os critérios estratégicos avaliam o potencial de um cliente para contribuir com o crescimento futuro da empresa fornecedora indo além da rentabilidade imediata e considerando aspectos como sinergia de longo prazo valor estratégico da parceria e possibilidade de coevolução comercial Diferenciamse dos critérios financeiros e comportamentais por enfatizarem a perspectiva de alinhamento estrutural e estratégico entre as partes especialmente relevante no contexto B2B onde as relações tendem a ser mais duradouras e complexas São exemplos típicos desses critérios Potencial de expansão da conta upsellcrosssell referese à capacidade de aumentar o volume de negócios com o cliente ao oferecer produtos complementares crosssell ou upgrades de soluções upsell ampliando o valor da conta ao longo do tempo Aderência aos produtos ou serviços ofertados mede o grau de compatibilidade entre as soluções da empresa fornecedora e as necessidades atuais e futuras da empresa cliente Sinergia cultural e estratégica entre as empresas considera afinidades em termos de valores corporativos estilo de gestão visão de futuro e práticas 115 Capítulo 2 Revisão da Literatura comerciais fatores que facilitam a construção de parcerias sólidas e duradouras Posicionamento da empresa cliente dentro de seu próprio mercado avalia se o cliente é líder referência ou inovador em seu segmento o que pode gerar efeitos indiretos positivos como credibilidade visibilidade e influência no setor KANCHANAPOOM CHONGWATPOL 2022 Esses critérios embora mais qualitativos por natureza podem e devem ser operacionalizados de forma sistemática a partir de escalas de avaliação interna checklists padronizados entrevistas com executivos da área comercial e painéis de validação entre áreas técnicas e estratégicas Empresas mais maduras podem empregar métodos como análise multicritério AHPMCDA ou modelos de scoring ponderado para atribuir pesos a esses critérios e classificálos de forma consistente em sistemas de CRM ou plataformas de account planning Além disso os critérios estratégicos são frequentemente utilizados na definição de Key Accounts contaschave ABM AccountBased Marketing e planejamentos de parcerias estratégicas por permitirem identificar clientes que mesmo não sendo os mais rentáveis no curto prazo oferecem elevado potencial de valor estratégico e institucional para a empresa fornecedora seja pelo potencial de coinovação pela abertura de novos mercados ou pela influência que exercem no setor 232 Técnicas quantitativas para segmentação B2B Com a digitalização dos processos empresariais e o crescimento exponencial do volume e da variedade de dados disponíveis surgiram metodologias mais robustas escaláveis e automatizadas para a segmentação de clientes A incorporação de técnicas de ciência de dados e em especial de machine learning revolucionou a forma como as empresas identificam e compreendem seus públicos alvo permitindo o agrupamento de clientes com base em padrões ocultos que muitas vezes não são perceptíveis por métodos tradicionais ou análises univariadas 116 Capítulo 2 Revisão da Literatura Clusterização Técnicas de clusterização ou agrupamento não supervisionado são amplamente utilizadas na criação de segmentos homogêneos de clientes com base em similaridades de comportamento características transacionais ou atributos demográficos Entre os algoritmos mais populares destacamse Kmeans eficaz na formação de clusters com base na distância euclidiana entre variáveis previamente normalizadas sendo especialmente útil em bases de dados estruturadas com grande volume de observações Sua simplicidade e velocidade de execução o tornam adequado para aplicações em tempo real e dashboards interativos HAN KAMBER PEI 2011 DBSCAN DensityBased Spatial Clustering of Applications with Noise permite identificar clusters de forma flexível com base na densidade de pontos sendo eficaz na detecção de outliers e em situações em que os clusters não têm formato esférico Hierarchical Clustering constrói uma árvore de agrupamentos dendrograma útil para análises exploratórias especialmente quando o número ideal de clusters não é conhecido previamente Modelos Supervisionados Modelos de aprendizado supervisionado são indicados quando o objetivo é prever variáveis de interesse como LTV Lifetime Value churn evasão ou propensão de compra Estes modelos aprendem com dados rotulados históricos e produzem classificações ou regressões com base em novos dados Destacamse Random Forest modelo baseado em árvores de decisão altamente robusto e interpretável adequado para previsão de churn e pontuação de clientes por risco 117 Capítulo 2 Revisão da Literatura Gradient Boosting Machines GBM XGBoost LightGBM técnicas poderosas que combinam vários modelos fracos para formar um preditor forte com excelente desempenho preditivo Redes Neurais Artificiais RNA recomendadas quando há uma alta complexidade nãolinear entre as variáveis sendo capazes de capturar padrões sofisticados especialmente em grandes bases Estudos como o de Bauer e Jannach 2021 evidenciam que o uso desses modelos supervisionados em estratégias de segmentação preditiva eleva significativamente a acurácia das decisões comerciais sobretudo em campanhas de retenção e recomendação Análise Fatorial A análise fatorial é uma técnica estatística que permite a redução da dimensionalidade de bases com muitas variáveis correlacionadas facilitando a interpretação dos dados e a identificação de fatores latentes que influenciam o comportamento dos clientes Por meio dela é possível agrupar variáveis que representam dimensões comuns como sensibilidade a preço grau de digitalização ou nível de interação com a marca A análise fatorial é especialmente útil em estudos de comportamento organizacional e pesquisas B2B com grande número de atributos qualitativos HAIR et al 2009 Processos KDD e CRISPDM Para garantir que a segmentação seja realizada de forma estruturada e alinhada aos objetivos organizacionais é recomendada a adoção de metodologias consolidadas de mineração de dados como KDD Knowledge Discovery in Databases define um processo sistemático que inclui seleção préprocessamento transformação mineração de dados e 118 Capítulo 2 Revisão da Literatura interpretação dos resultados FAYYAD et al 1996 CRISPDM Cross Industry Standard Process for Data Mining modelo de referência amplamente utilizado na indústria que organiza o processo de ciência de dados em seis fases interdependentes compreensão do negócio compreensão dos dados preparação dos dados modelagem avaliação e implantação A adoção desses modelos metodológicos assegura que o projeto de segmentação seja consistente replicável e orientado a resultados promovendo integração entre áreas técnicas e de negócio e contribuindo para uma governança analítica mais madura 233 Desafios atuais e perspectivas futuras Embora as técnicas analíticas e ferramentas de modelagem estejam cada vez mais acessíveis e democratizadas a segmentação B2B ainda enfrenta obstáculos significativos que comprometem a eficácia dos modelos implementados e a escalabilidade das estratégias geradas a partir deles Entre os principais desafios destacamse Fragmentação dos dados entre diferentes sistemas legados ERP CRM BI que dificulta a obtenção de uma visão única e consolidada do cliente comprometendo a consistência das análises Baixa qualidade incompletude ou desatualização dos dados fatores que afetam diretamente os resultados da modelagem preditiva e aumentam o risco de viés e inferências incorretas Falta de integração entre as áreas de marketing vendas e tecnologia da informação o que impede a implantação eficaz de estratégias baseadas em dados e dificulta a governança analítica organizacional 119 Capítulo 2 Revisão da Literatura Mudanças rápidas no comportamento dos clientes especialmente em cenários de incerteza ou crise como observado durante e após a pandemia de COVID19 que exigem modelos mais ágeis adaptativos e sensíveis ao tempo LI et al 2022 Como resposta a esses desafios observase uma tendência crescente à adoção de sistemas de segmentação dinâmica baseados em inteligência artificial e análise em tempo real Essas soluções buscam substituir os modelos estáticos e rígidos por abordagens adaptativas que acompanham o ciclo de vida do cliente em tempo contínuo O uso de algoritmos de deep learning redes neurais convolucionais e técnicas de análise de sentimentos aplicadas a interações textuais como emails chats transcrições de reuniões virtuais e chamadas telefônicas tem possibilitado uma visão mais rica e preditiva da jornada do cliente B2B permitindo intervenções mais precisas e tempestivas SU et al 2023 HUANG RUST 2020 A evolução da segmentação de clientes no ambiente B2B acompanha essa transformação passouse de abordagens empíricas e intuitivas baseadas em julgamento de especialistas ou histórico comercial para modelos matematicamente fundamentados e orientados por dados com validação estatística e capacidade de generalização Nesse novo paradigma a utilização combinada de métricas financeiras como o LTV Lifetime Value e o CAC Custo de Aquisição de Clientes associada a algoritmos de machine learning supervisionados e não supervisionados permite a construção de segmentos altamente eficazes na maximização do valor do cliente com benefícios diretos em rentabilidade fidelização e ROI de campanhas A abordagem datadriven portanto não apenas amplia o conhecimento sobre os clientes como também potencializa a personalização de ofertas a eficiência operacional e a competitividade das organizações Em vez de se basear em segmentações fixas ela permite modelos responsivos e continuamente atualizados ajustandose conforme os dados comportamentais contextuais e mercadológicos evoluem Dessa forma a compreensão aprofundada dos critérios de segmentação o domínio das técnicas de análise de dados e sobretudo a integração entre áreas estratégicas como marketing vendas TI e inteligência de mercado tornamse pilares fundamentais para o sucesso das estratégias comerciais no cenário B2B 120 Capítulo 2 Revisão da Literatura contemporâneo Esse alinhamento é indispensável para garantir que os insights gerados pela análise de dados se traduzam em ações efetivas e orientadas a resultados Estudos futuros devem considerar entre outras vertentes promissoras a evolução dos modelos de inteligência artificial generativa com potencial para criar perfis sintéticos simular jornadas de clientes e gerar conteúdos personalizados em escala bem como a integração de dados não estruturados como voz texto livre imagens e vídeos nos modelos preditivos de valor e comportamento Essa integração representa um novo patamar de sofisticação analítica com impacto direto na assertividade automação e personalização da segmentação B2B 121 CAPÍTULO III 3 TRABALHOS CORRELATOS A segmentação de clientes e a gestão do valor que cada cliente representa ao longo do tempo são temas centrais na literatura contemporânea de marketing estratégico e gestão de relacionamento Essas práticas surgem como respostas fundamentais à necessidade de alocar recursos de forma eficiente em mercados cada vez mais saturados competitivos e orientados por dados Nesse contexto Kotler e Keller 2006 argumentam que as empresas não devem tentar satisfazer indiscriminadamente todos os consumidores mas sim concentrar seus esforços naqueles que demonstram maior potencial de retorno financeiro Para esses autores um cliente lucrativo é definido como uma pessoa família ou empresa cujas receitas ao longo da vida excedem em um valor aceitável os custos da empresa para atrair vender e atender esse cliente A partir dessa concepção emerge o conceito de Lifetime Value LTV ou Valor do Tempo de Vida do Cliente como uma métricachave para orientar decisões estratégicas relacionadas à aquisição retenção e expansão do relacionamento com os clientes O LTV permite quantificar o valor econômico de longo prazo gerado por cada cliente funcionando como um guia para decisões mais inteligentes sobre quais perfis merecem investimentos contínuos e quais podem ser despriorizados A capacidade de identificar prever e gerenciar clientes de alto valor tornou se atualmente um dos pilares das estratégias empresariais focadas em performance e fidelização sustentável O LTV consolidouse como uma métrica central não só para o planejamento de ações comerciais e de marketing mas também como critério essencial para segmentação preditiva orçamentação estratégica alocação eficiente de recursos multicanal e projeção de retorno sobre investimento ROI Sua importância crescente é respaldada por diversos estudos contemporâneos como os de Pollak 2021 Zhang et al 2022 Li et al 2022 Afiniti 2022 e Su et al 2023 Esses pesquisadores demonstram que o LTV sintetiza de maneira integrada os benefícios econômicos gerados pelas interações dos clientes com a organização ao longo de todo o ciclo de vida permitindo que as 122 empresas tomem decisões mais assertivas tanto no nível operacional quanto no tático e estratégico Em ambientes 123 Capítulo 3 Trabalhos Correlatos digitais e omnichannel caracterizados pela volatilidade e distribuição dispersa do comportamento do consumidor a modelagem do LTV tornase ainda mais crítica para antecipar churn identificar oportunidades de upsell e definir prioridades de atendimento No campo aplicado Kanchanapoom e Chongwatpol 2022 apresentam um modelo de segmentação orientado pelo LTV no setor de medicina complementar e alternativa um mercado marcado pela importância de relacionamentos de longo prazo e construção gradual de confiança Os autores propõem a divisão dos clientes em quatro segmentos distintos que combinam critérios de valor e lealdade à marca Este modelo visa identificar os segmentos com maior potencial futuro servindo como instrumento preditivo para direcionar decisões comerciais e de marketing A classificação segmenta os clientes em i alto valor e alta lealdade onde a recomendação é fortalecer e preservar o vínculo ii alto valor e baixa lealdade em que o foco deve ser aumentar a fidelização iii baixo valor e alta lealdade nos quais é recomendada a maximização do retorno com possível descontinuação futura e iv baixo valor e baixa lealdade que podem ser alvo de desvinculação gradual Essa abordagem permite uma alocação de recursos mais eficiente alinhada ao retorno potencial previsto enfatizando a importância de estratégias direcionadas personalizadas e sustentáveis de relacionamento com o cliente Figura 11 Proposta de segmentação de clientes baseado no valor ao longo da sua vida e na sua lealdade à marca 124 Capítulo 3 Trabalhos Correlatos Fonte Adaptado pelo autor O estudo de Afiniti 2022 reforça a centralidade do LTV na tomada de decisões gerenciais especialmente em setores com modelos contratuais de relacionamento com clientes Os autores argumentam que uma estimativa acurada do valor vitalício do cliente é essencial para o alinhamento entre investimentos em aquisição e o retorno financeiro projetado ao longo do tempo Para esse fim propõem um modelo flexível de riscos proporcionais que permite incorporar a probabilidade de churn evasão como variávelchave no cálculo do LTV A abordagem parte do pressuposto de que a organização possui um modelo de churn minimamente calibrado cuja integração à modelagem de LTV permite calcular com maior precisão o tempo esperado de permanência de um cliente ponderando esse tempo pelos lucros esperados em cada período Isso torna o modelo particularmente adequado para ambientes com relações contratuais explícitas como telecomunicações seguros ou assinaturas de serviços digitais onde os fluxos de receita são previsíveis mas dependem criticamente da retenção de clientes Complementarmente Su et al 2023 enfrentam um dos principais desafios relacionados à modelagem do LTV em ambientes não contratuais e altamente dinâmicos como plataformas de publicidade online Nesses contextos os dados de consumo por usuário tendem a ser escassos fragmentados ou inconsistentes dentro de um único domínio de análise Como alternativa os autores propõem uma estrutura adaptativa entre domínios denominada CDAF CrossDomain Adaptive Framework que permite a transferência de aprendizado de um domínio com dados abundantes por exemplo uma plataforma digital consolidada para outro domínio com dados mais limitados como uma plataforma emergente O método proposto busca mitigar dois problemas simultâneos i a escassez de dados históricos de consumo e ii o desalinhamento estatístico entre os domínios fonte e alvo Para isso a CDAF adota uma arquitetura que aprende padrões gerais de LTV em plataformas relacionadas preservando a generalização e ajustando as distribuições para o novo domínio Essa estratégia permite realizar predições mais robustas mesmo em ambientes onde a informação direta sobre o comportamento dos usuários ainda está em formação destacandose como um exemplo promissor de 125 Capítulo 3 Trabalhos Correlatos transferência de aprendizado transfer learning no campo de modelagem de valor de cliente Na mesma linha de enfrentamento das limitações dos modelos tradicionais Zhang et al 2022 destacam que o LTV ao mensurar a contribuição econômica de longo prazo de clientes ao longo de relacionamentos contínuos com produtos ou serviços pode fornecer insumos decisivos para a definição de estratégias de entrega de valor No entanto os autores argumentam que as abordagens atuais enfrentam dois entraves significativos por um lado a incapacidade de modelar adequadamente relações temporais e não lineares por outro a ausência de soluções computacionalmente viáveis para grandes volumes de dados Em resposta Zhang e colaboradores propõem um modelo geral de LTV que supera a fragmentação das abordagens anteriores ao integrar aspectos de longo prazo em vez de se limitar a estimativas baseadas em cliques ou compras recentes Para alcançar esse objetivo os autores implementam uma solução de programação dinâmica rápida baseada em um método de bisseção mutado e na hipótese de experimentação sem memória o que permite acelerar o processo de otimização dos parâmetros envolvidos na projeção do LTV Essa proposta se mostra particularmente eficaz para aplicações em ambientes digitais e plataformas de serviços contínuos onde o comportamento do cliente é complexo e a avaliação de seu valor futuro exige uma abordagem preditiva mais sofisticada e adaptável Pollak 2021 explora um dos principais desafios enfrentados pelas empresas ao prever o Lifetime Value LTV de clientes em contextos não contratuais nos quais a relação com o consumidor é descontinuada ou intermitente Nesse tipo de ambiente onde não há garantias explícitas de continuidade da relação comercial a estimativa do valor vitalício do cliente tornase dependente essencialmente de padrões históricos de compra Com isso a previsão exige um modelo que consiga inferir comportamentos futuros a partir de dados passados O autor realiza uma comparação entre dois métodos o primeiro baseado no modelo estatístico conhecido como compre até morrer BuyTillYouDie Model que utiliza dados transacionais anteriores para modelar a propensão de recompra até a morte do cliente ie inatividade o segundo uma rede neural artificial aplicada ao mesmo conjunto de dados A análise realizada oferece resultados quantitativos e qualitativos que comparam a precisão a robustez e a aplicabilidade prática de ambas as 126 Capítulo 3 Trabalhos Correlatos abordagens Como conclusão Pollak propõe diretrizes práticas para que gestores de marketing escolham o modelo mais adequado a depender do tipo de dado disponível da complexidade do domínio e do objetivo estratégico da organização Em complemento Bauer e Jannach 2021 propõem um conjunto de técnicas baseadas em inteligência artificial que visam elevar a precisão das previsões de LTV em contextos altamente dinâmicos como o comércio eletrônico e plataformas digitais Dentre as inovações destacadas encontrase o uso de redes neurais recorrentes RNNs capazes de capturar dependências temporais nas interações entre clientes e produtos o que permite uma modelagem mais realista do comportamento sequencial de compra Além disso os autores empregam modelos de atenção attention models que aumentam a capacidade da rede em focar seletivamente em eventos relevantes da sequência de interação melhorando a capacidade preditiva Para lidar com a qualidade variável dos dados é sugerido um préprocessamento avançado que inclui tratamento de valores ausentes normalização e codificação apropriada de variáveis categóricas Um dos diferenciais do estudo é a introdução de modelos Seq2Seq SequencetoSequence comumente utilizados em tarefas como tradução automática mas aqui aplicados para mapear a sequência completa de interações clienteproduto ao longo do tempo Por fim Bauer e Jannach propõem uma arquitetura híbrida combinando modelos baseados em características featurebased com modelos sequenciais de modo a explorar as vantagens de ambas as abordagens mitigando as limitações associadas a soluções isoladas Essa proposta representa um avanço no campo da modelagem preditiva especialmente no que diz respeito à complexidade comportamental dos consumidores digitais No mesmo escopo Li et al 2022 enfrentam o desafio da previsão do LTV em ambientes de altíssima escala como plataformas digitais com bilhões de usuários Nesse cenário a modelagem tradicional tornase inviável devido à diversidade de perfis de usuários à alta variabilidade dos dados e à necessidade de predições em tempo real A solução proposta pelos autores foi aplicada em uma empresa de tecnologia chinesa de grande porte utilizando um arcabouço robusto de ciência de dados e aprendizado de máquina que inclui algoritmos de previsão baseados em séries temporais machine learning supervisionado processamento em tempo real e inteligência artificial adaptativa A proposta se destaca pela 127 Capítulo 3 Trabalhos Correlatos capacidade de processar grandes volumes de dados de forma eficiente e responsiva permitindo que as predições de LTV sejam atualizadas dinamicamente conforme o comportamento do usuário evolui Essa abordagem demonstra que além da sofisticação algorítmica é imprescindível escalabilidade e integração com sistemas operacionais de negócio para garantir que as previsões de valor de cliente possam ser utilizadas de forma prática ágil e alinhada às necessidades de mercado Olnén 2022 destaca que a precisão na estimativa do Lifetime Value LTV é um fator determinante para organizações que desejam otimizar suas estratégias de relacionamento com o cliente e ao mesmo tempo maximizar a rentabilidade no longo prazo Para alcançar esse objetivo o autor emprega técnicas avançadas de aprendizado de máquina com ênfase em redes neurais profundas deep learning que se mostram particularmente eficazes na captura das complexidades e nuances comportamentais dos consumidores Esses modelos computacionais têm a capacidade de aprender a partir de grandes volumes de dados históricos padrões sutis em variáveis como frequência de compras valor transacional médio e nível de engajamento com os serviços prestados permitindo uma previsão mais acurada do valor futuro de cada cliente Ainda segundo Olnén 2022 uma compreensão aprofundada do LTV previsto capacita as empresas não apenas a avaliar o retorno sobre o investimento ROI em campanhas de marketing mas também a tomar decisões estratégicas quanto ao valor de mercado da própria empresa especialmente em contextos de aquisição fusão ou abertura de capital Além disso ao classificar os clientes com base em seu LTV estimado os profissionais de marketing podem realocar de forma mais eficiente os recursos destinados à aquisição retenção ou estratégias de upsell e crosssell O autor também chama atenção para uma característica estatística frequentemente presente nas distribuições de LTV a cauda pesada isto é a presença de poucos clientes que geram valores muito elevados contrastando com a maioria que gera menor retorno Diante disso o desempenho dos modelos preditivos é avaliado a partir de dois critérios principais discriminação que verifica a capacidade de distinguir entre clientes de alto e baixo valor e calibração que mede a proximidade entre os valores previstos e os valores reais observados Contudo o processo de ponderação entre essas métricas segundo Olnén é oneroso e sujeito a vieses dado que exige análise manual Com base nos experimentos relatados o autor 128 Capítulo 3 Trabalhos Correlatos infere que a discriminação tende a receber 19 vezes mais peso que a calibração durante a avaliação dos modelos indicando uma priorização prática da capacidade de segmentação sobre a exatidão absoluta das previsões O autor também observa que há uma lacuna na literatura quanto ao efeito do aumento do horizonte temporal de dados históricos sobre a precisão preditiva dos modelos o que sugere um campo promissor para futuras investigações No mesmo escopo de aplicação ao varejo digital Jasek et al 2019 argumentam que a escolha de um modelo LTV apropriado é uma etapa crucial para empresas que buscam implementar uma abordagem gerencial baseada em valor do cliente em suas plataformas de ecommerce B2C O contexto do varejo online impõe pressupostos e desafios específicos como a natureza não contratual do relacionamento com os clientes a recorrência imprevisível das compras e a variabilidade no comportamento de consumo ao longo do tempo Os autores conduzem uma análise comparativa entre onze diferentes modelos probabilísticos de previsão de LTV avaliando tanto o desempenho estatístico quanto a capacidade preditiva em cenários reais de comércio eletrônico Os resultados obtidos evidenciam que embora existam diversas abordagens teóricas para a previsão do LTV alguns modelos são claramente superiores quando aplicados a ambientes de alta complexidade e dinamismo como o varejo digital A pesquisa reforça assim a necessidade de adequação contextual na escolha do modelo tendo em vista as características operacionais do negócio os tipos de dados disponíveis e os objetivos estratégicos da organização Em última análise o estudo de Jasek et al ressalta que o entendimento profundo do valor do cliente é essencial para sustentar decisões comerciais assertivas promover a eficiência operacional e garantir vantagem competitiva sustentável no ambiente digital contemporâneo Win e Bo 2020 enfatizam que a segmentação de clientes com base no Lifetime Value LTV configura uma prática essencial no marketing contemporâneo especialmente em ambientes digitais competitivos Ao possibilitar a identificação e a priorização de grupos de clientes segundo seu valor financeiro estimado ao longo do tempo essa abordagem permite que as empresas otimizem seus investimentos em aquisição retenção e fidelização Os autores aplicam o algoritmo Random Forest um modelo de aprendizado de máquina supervisionado com o objetivo de prever a classe de LTV dos clientes em um horizonte de um ano Os resultados obtidos 129 Capítulo 3 Trabalhos Correlatos demonstram que esse tipo de técnica é eficaz para orientar decisões estratégicas em Customer Relationship Management CRM permitindo que o varejista direcione seus recursos para clientes com maior potencial de retorno aumentando a eficiência operacional e maximizando o valor agregado O estudo reforça assim a viabilidade e a aplicabilidade prática de métodos preditivos baseados em machine learning na formulação de estratégias de marketing no contexto digital Na mesma direção Dahana et al 2019 abordam o LTV como uma métrica crítica para a construção de estratégias de marketing eficazes especialmente em setores de rápida transformação como o varejo de moda online Em sua proposta metodológica os autores desenvolvem um modelo de classe latente que considera a frequência de compra a duração do ciclo de vida do cliente e o valor médio das transações como variáveis determinantes para inferir o LTV em diferentes segmentos de mercado O estudo introduz uma dimensão inovadora ao incorporar padrões de estilo de vida como variável explicativa para a heterogeneidade do LTV entre segmentos demonstrando que fatores comportamentais e psicográficos podem ter impacto substancial sobre o valor de longo prazo gerado pelos clientes Ao aplicar o modelo a um conjunto de dados reais de transações e perfis comportamentais de consumidores em uma plataforma de moda os autores demonstram a capacidade preditiva do modelo proposto ampliando as possibilidades de segmentação inteligente e customização de campanhas de marketing De forma complementar os próprios autores definem o LTV como o valor total esperado que a empresa pode obter de um único cliente ao longo de toda a duração do relacionamento considerando receita líquida e custos variáveis associados ao atendimento desse cliente o que alinha a métrica tanto à visão financeira quanto à perspectiva estratégica da organização No contexto da indústria de jogos digitais Burelli 2019 oferece uma contribuição relevante ao destacar os desafios e oportunidades na modelagem preditiva do comportamento dos jogadores especialmente em modelos de negócios orientados a serviços como os jogos FreetoPlay F2P Nesse tipo de modelo a ausência de barreiras iniciais de pagamento e a grande variação no comportamento de engajamento e de gastos tornam a previsão de receitas futuras altamente complexa O autor argumenta que diante dessa volatilidade tornase essencial dispor de modelos preditivos robustos capazes de fornecer suporte às decisões 130 Capítulo 3 Trabalhos Correlatos relacionadas à aquisição de usuários personalização de experiências ingame e otimização de recursos de desenvolvimento e operação O artigo ressalta que para que estratégias eficazes sejam implementadas é necessário entender não apenas as escolhas passadas dos jogadores mas também antecipar possíveis trajetórias futuras de comportamento utilizando dados históricos e técnicas avançadas de data science e aprendizado de máquina Nesse sentido a modelagem do LTV em jogos digitais não apenas amplia o entendimento sobre a economia do jogador mas também possibilita a definição de estratégias mais sustentáveis e orientadas por dados para monetização e retenção Wu et al 2023 exploram os desafios da previsão do Lifetime Value LTV em contextos onde a escassez de eventos de consumo e a alta variabilidade dos dados impõem barreiras significativas à precisão das estimativas Essa realidade é especialmente comum em aplicativos centrados no cliente nos quais a interação pode ser esporádica e os dados disponíveis são ruidosos ou incompletos Os autores criticam os métodos tradicionais que treinam preditores de LTV com base em uma única visão dos dados argumentando que essa abordagem tende a extrair conhecimento de forma limitada e potencialmente enviesada Para superar tais limitações propuseram uma estrutura de multivisualização contrastiva projetada como uma solução plugandplay PnP compatível com diferentes arquiteturas de modelos backbones Essa estrutura integra múltiplos regressores de LTV heterogêneos que trazem conhecimentos complementares resultando em maior robustez e precisão na estimativa do valor do cliente Além disso a utilização do aprendizado contrastivo permite capturar relações latentes entre amostras semelhantes mitigando a dependência da abundância de dados rotulados e reforçando a capacidade do modelo em generalizar padrões úteis No mesmo eixo de inovação metodológica Wang et al 2019 propõem uma abordagem estatística para a modelagem do LTV que leva em consideração tanto a probabilidade de churn rotatividade quanto a distribuição assimétrica dos dados de valor frequentemente observada em mercados com clientes de alto e baixo valor extremo A proposta metodológica baseiase em uma mistura entre massa de ponto zero e distribuição lognormal resultando na chamada distribuição lognormal inflada de zero ZILN Tal modelagem é especialmente eficaz para capturar a natureza de cauda pesada dos dados de LTV ao mesmo tempo em que quantifica a incerteza 131 Capítulo 3 Trabalhos Correlatos nas previsões pontuais o que é fundamental para a tomada de decisões estratégicas sob risco Os autores validam o modelo tanto em modelos lineares tradicionais quanto em redes neurais profundas DNNs evidenciando sua flexibilidade e adaptabilidade a diferentes contextos de aplicação Para avaliação da performance preditiva são utilizados o coeficiente de Gini normalizado que mede a capacidade discriminativa do modelo e gráficos de decil que avaliam a calibração das previsões Os resultados empíricos obtidos a partir de dois conjuntos de dados reais demonstram a eficácia do modelo ZILN para diferentes aplicações comerciais e níveis de granularidade nos dados Por fim Cao et al 2023 abordam a previsão do comportamento do consumidor e sua interseção com a otimização de sortimento ampliando a aplicação de modelos preditivos de valor para além da estimativa do LTV Os autores investigam a escolha do cliente a partir de uma mistura de modelos de demanda que combina a demanda independente com o modelo de logit multinomial refletindo a realidade de mercados nos quais diferentes segmentos de clientes seguem padrões de decisão distintos Nesse contexto cada produto do portfólio possui uma receita esperada associada e o objetivo do modelo é encontrar o sortimento ótimo ou seja a combinação de produtos que maximiza a receita esperada de um cliente A proposta metodológica mostra que esse problema pode ser resolvido de forma eficiente por meio da formulação e resolução de um programa linear tornando a abordagem viável do ponto de vista computacional Um dos principais achados do estudo é que o tamanho ideal do sortimento cresce proporcionalmente ao tamanho relativo do segmento de clientes que se comporta conforme o modelo de demanda independente implicando que diferentes perfis de comportamento exigem estratégias diferenciadas de oferta de produtos para a maximização de valor 132 CAPÍTULO IV 4 METODOLOGIA 41 TIPO DE PESQUISA Este trabalho propõe o desenvolvimento de uma metodologia prática de segmentação de clientes no contexto B2B com especial ênfase em empresas que atuam no setor de serviços de cobrança embora seus princípios e técnicas sejam igualmente aplicáveis a outros setores intensivos em relacionamento com clientes como tecnologia consultoria engenharia e indústria de base A base conceitual da proposta está ancorada na clássica visão de Kotler e Keller 2012 segundo a qual a segmentação é um dos pilares fundamentais para a efetividade das estratégias de marketing Para os autores o conhecimento aprofundado do perfil dos clientes e sua organização em grupos coerentes permite a alocação mais racional de recursos a personalização de ofertas e a maximização do retorno sobre os investimentos em vendas e relacionamento A metodologia sugerida fundamentase em técnicas de análise de dados e algoritmos de clusterização com o objetivo de agrupar os clientes conforme variáveis quantitativas e qualitativas como nível de faturamento porte organizacional número de funcionários tempo de relacionamento com a empresa e indicadores de performance Essa abordagem se alinha às etapas do processo de Knowledge Discovery in Databases KDD descrito por Fayyad et al 1996 cuja proposta é transformar grandes volumes de dados brutos em conhecimento aplicável e estratégico por meio de etapas sistemáticas que envolvem seleção pré processamento transformação mineração e interpretação dos dados A utilização da clusterização como técnica de segmentação permite que se identifiquem padrões ocultos no comportamento dos clientes fornecendo à equipe comercial subsídios para tomada de decisão mais precisa quanto às estratégias de abordagem retenção e reativação de clientes Tal como sugerem Tan Steinbach e Kumar 2019 a identificação de agrupamentos homogêneos a partir de dados históricos melhora substancialmente a capacidade preditiva das ações comerciais 133 Capítulo 4 Metodologia permitindo um direcionamento mais assertivo dos recursos e maior aderência entre o perfil do cliente e a proposta de valor da empresa Com isso a proposta metodológica contribui para otimizar indicadores centrais da gestão comercial como a redução do Custo de Aquisição de Clientes CAC e o aumento do Lifetime Value LTV compreendido como o valor total gerado por um cliente ao longo do seu ciclo de vida com a empresa KOTLER KELLER 2012 OLIVEIRA 2018 Dessa forma a segmentação baseada em dados reais ancorada no ciclo do KDD não apenas confere maior objetividade ao processo de gestão de clientes como também reforça a cultura datadriven na tomada de decisões estratégicas Ao final do processo a pesquisa evidencia como o uso de algoritmos de agrupamento pode representar uma poderosa ferramenta de apoio à gestão comercial e à inteligência de mercado com impactos diretos sobre a rentabilidade a fidelização de clientes e o posicionamento competitivo da organização no ambiente B2B 42 PROCEDIMENTOS METODOLÓGICOS A metodologia proposta neste trabalho está fundamentada no processo de Descoberta de Conhecimento em Bases de Dados Knowledge Discovery in Databases KDD estruturado de maneira sequencial iterativa e orientada à extração de conhecimento útil a partir de grandes volumes de dados O KDD será operacionalizado por meio de sete etapas interligadas seleção préprocessamento transformação mineração de dados avaliação interpretação e aplicação dos resultados no contexto de segmentação de clientes B2B A primeira etapa de seleção e coleta dos dados contempla a utilização de bases secundárias públicas e acessíveis contendo informações cadastrais e financeiras de empresas brasileiras que atuam em relações comerciais do tipo businesstobusiness B2B Os critérios para inclusão dos dados baseiamse em atributos relevantes para análise de rentabilidade e relacionamento comercial tais como faturamento anual número de funcionários tempo de operação no mercado e histórico de inadimplência 134 Capítulo 4 Metodologia Na etapa seguinte realizase o tratamento e préprocessamento dos dados essencial para garantir a qualidade e a integridade da base a ser analisada Serão aplicadas técnicas como identificação e remoção de ruídos inconsistências e valores ausentes com o apoio de métodos de imputação estatística e exclusão criteriosa de registros inválidos A normalização das variáveis será feita por meio de escalonamento MinMax e padronização por ZScore assegurando homogeneidade nas escalas numéricas Adicionalmente outliers serão detectados e tratados com base na análise gráfica de boxplots e nos limites estatísticos da amplitude interquartil IQR de forma a garantir a robustez dos modelos subsequentes Posteriormente será realizada a transformação e redução de dimensionalidade com o objetivo de condensar as variáveis mais relevantes e eliminar redundâncias sem perda significativa de informação Serão aplicadas técnicas como Análise Fatorial Exploratória AFE e Análise de Componentes Principais PCA que permitem extrair fatores latentes e otimizar a performance computacional dos algoritmos empregados nas etapas posteriores A segmentação dos clientes será conduzida por meio da técnica de clusterização não supervisionada Kmeans escolhida por sua eficiência computacional e simplicidade interpretativa A definição do número ideal de clusters será realizada com base em critérios objetivos como o Método do Cotovelo Elbow Method e a Pontuação de Silhueta Silhouette Score de modo a garantir a formação de grupos internamente homogêneos e externamente distintos A segmentação resultante permitirá a identificação de perfis comerciais com similaridades estruturais facilitando a definição de estratégias personalizadas Na sequência serão aplicados modelos de classificação e predição com o intuito de estimar o Lifetime Value LTV e a probabilidade de churn de cada cliente Para isso serão empregados algoritmos supervisionados como Árvores de Decisão Random Forest Redes Neurais Artificiais e Algoritmos Genéticos do tipo AntMiner A escolha dessas técnicas justificase por sua capacidade de capturar padrões complexos mesmo em contextos com alta dimensionalidade além de apresentarem boa interpretabilidade e desempenho preditivo comprovado na literatura A validação dos segmentos formados será realizada com base em métricas quantitativas e qualitativas Avaliarseá a pureza interna dos clusters isto é a 135 Capítulo 4 Metodologia proporção de membros que compartilham características predominantes bem como a diferenciação externa entre os grupos por meio da distância euclidiana entre os centroides e de testes estatísticos como ANOVA e Testes T Além disso será conduzida uma análise de correlação entre os segmentos formados e indicadores de negócio relevantes como LTV Custo de Aquisição de Clientes CAC e taxa de churn Por fim a etapa de interpretação dos resultados buscará traduzir os achados analíticos em insumos estratégicos para a gestão comercial A partir da caracterização dos segmentos será possível propor ações de relacionamento prioritárias otimizar a alocação de recursos de marketing e estruturar campanhas de retenção ou prospecção considerando o potencial de rentabilidade e o risco associado a cada grupo de clientes Assim esperase demonstrar como uma abordagem orientada por dados pode impulsionar a eficiência e a eficácia das estratégias de segmentação no contexto B2B 43 FERRAMENTAS E SOFTWARES As etapas de processamento análise e modelagem dos dados serão implementadas por meio da linguagem de programação Python amplamente adotada em projetos de ciência de dados devido à sua versatilidade robustez e vasta gama de bibliotecas especializadas A manipulação de dados tabulares e estruturas matriciais será realizada com o suporte das bibliotecas Pandas e NumPy permitindo uma organização eficiente dos dados e facilitando operações estatísticas agregações e transformações Para a identificação e visualização de valores ausentes será utilizada a biblioteca Missingno que oferece representações gráficas intuitivas para apoiar decisões sobre imputações ou exclusões Na etapa de modelagem preditiva e segmentação o framework Scikitlearn desempenhará papel central sendo responsável pela aplicação de algoritmos de clusterização como Kmeans classificação supervisionada como Random Forest e Árvores de Decisão além de ferramentas de préprocessamento normalização escalonamento e codificação e validação cruzada de modelos Para a redução de dimensionalidade e análise fatorial será empregada a biblioteca FactorAnalyzer que 136 Capítulo 4 Metodologia permite a extração de componentes principais e a avaliação da adequação das variáveis aos fatores latentes A visualização gráfica dos resultados será conduzida com o auxílio das bibliotecas Matplotlib e Seaborn que oferecem recursos avançados para gerar gráficos de dispersão boxplots mapas de calor histogramas e outras representações úteis para análise exploratória e apresentação dos achados Por fim a modelagem preditiva baseada em algoritmos genéticos será realizada por meio do AntMiner técnica que integra princípios de inteligência coletiva e evolução computacional proporcionando classificações interpretáveis e eficazes especialmente em cenários de regras de decisão complexas 44 LIMITAÇÕES METODOLÓGICAS O presente estudo apresenta algumas limitações que devem ser consideradas na interpretação e generalização dos resultados A principal restrição está relacionada à natureza secundária dos dados utilizados os quais apesar de representativos podem não abranger com exatidão todas as particularidades do mercado em análise Essa limitação compromete em certa medida a profundidade da inferência sobre comportamentos específicos ou dinâmicas emergentes em determinados nichos Além disso a aplicabilidade prática dos resultados obtidos está condicionada à relativa estabilidade dos padrões históricos de comportamento das empresas o que pode ser impactado por mudanças econômicas variações setoriais ou transformações estruturais nas estratégias de consumo e relacionamento entre empresas Outro fator que merece destaque é a complexidade interpretativa de alguns modelos analíticos empregados como as redes neurais artificiais cuja natureza de caixapreta pode dificultar a explicação dos critérios de segmentação para gestores não técnicos Essa característica pode gerar resistência organizacional à adoção de abordagens baseadas em ciência de dados especialmente em ambientes empresariais mais tradicionais nos quais a tomada de decisão ainda se baseia fortemente em heurísticas e experiências acumuladas A base de dados utilizada na pesquisa é denominada baseleadsokxlsx a qual contém registros reais de empresas que mantêm ou mantiveram algum tipo de relação comercial com uma prestadora de serviços de cobrança Conforme 137 Capítulo 4 Metodologia argumentam Han Kamber e Pei 2012 a qualidade consistência e relevância dos dados de entrada são determinantes para o êxito de qualquer projeto de mineração de dados justificando a escolha de uma base já consolidada revisada e organizada Essa escolha também está em consonância com as orientações de Fayyad et al 1996 sobre a importância da preparação de dados no ciclo KDD Knowledge Discovery in Databases etapa crítica que antecede a análise propriamente dita A base em questão reúne aproximadamente 1000 registros sendo que cada linha representa uma empresa única Os dados incluem tanto informações cadastrais básicas como razão social e setor de atuação quanto variáveis de maior relevância analítica como o Faturamento Presumido FatPres indicador do volume financeiro movimentado pela empresa e a Quantidade de Funcionários que permite inferir o porte organizacional Complementarmente a base contempla variáveis auxiliares como segmento de mercado localização geográfica risco de inadimplência e status de atividade que foram utilizadas de forma exploratória na etapa inicial do estudo Essas informações adicionais contribuíram para verificar a consistência dos clusters gerados bem como a sua capacidade de representar grupos economicamente e operacionalmente distintos Em linha com as contribuições de Kotler e Keller 2012 compreender o tamanho a complexidade e o potencial de consumo de cada cliente é um passo fundamental para qualquer iniciativa de segmentação orientada a resultados especialmente no contexto B2B onde os volumes transacionais e os ciclos de relacionamento tendem a ser mais longos Ao optar por uma base realista e alinhada ao mercado de atuação da empresa em questão o estudo assegura maior aplicabilidade dos seus achados Dessa forma os clusters resultantes da análise podem ser efetivamente utilizados como subsídio à atuação da equipe comercial permitindo a personalização de estratégias de prospecção abordagem e retenção de acordo com o perfil identificado de cada segmento KOTLER KELLER 2012 OLIVEIRA 2018 441 Pré Processamento 138 Capítulo 4 Metodologia Após a escolha da base de dados foi necessário realizar o pré processamento etapa considerada essencial em qualquer projeto de mineração de dados e que influencia diretamente a qualidade dos modelos e das interpretações subsequentes FAYYAD et al 1996 HAN KAMBER PEI 2012 O pré processamento tem como objetivo central preparar os dados de forma a garantir que os algoritmos de análise operem sobre um conjunto coerente livre de ruídos e inconsistências maximizando a confiabilidade dos resultados A primeira atividade conduzida nesse processo foi a etapa de limpeza dos dados que consistiu na verificação detalhada da qualidade dos registros bem como na identificação e eliminação de inconsistências erros de digitação duplicatas e valores ausentes Conforme alertam Han Kamber e Pei 2012 a presença de dados incompletos ou imprecisos pode comprometer profundamente o desempenho de modelos preditivos e de agrupamento levando a interpretações equivocadas e à tomada de decisões inadequadas Durante essa análise observouse que diversas linhas da base não apresentavam valores preenchidos em campos considerados críticos especialmente o Faturamento Presumido FatPres e a Quantidade de Funcionários variáveis fundamentais para o processo de clusterização Por essa razão optouse pela exclusão de todos os registros incompletos nessas variáveis de modo a assegurar a integridade e a consistência da análise posterior A segunda etapa consistiu na transformação dos dados mais especificamente na aplicação de uma função logarítmica sobre os valores de faturamento Essa técnica é amplamente utilizada em estudos que lidam com variáveis financeiras dada a frequência de distribuições assimétricas e a presença de outliers severos ou seja empresas cujos faturamentos são excepcionalmente altos em comparação com a média da amostra TAN STEINBACH KUMAR 2019 Ao aplicar o logaritmo reduzse a amplitude dos valores comprimindo as escalas e permitindo uma análise mais homogênea Essa transformação é particularmente útil em algoritmos de agrupamento baseados em distância como o Kmeans pois evita que empresas muito grandes exerçam influência desproporcional na definição dos centroides dos clusters HAN KAMBER PEI 2012 Tratase portanto de uma etapa crucial para garantir que a segmentação reflita padrões reais de similaridade e não apenas diferenças de ordem de magnitude 139 Capítulo 4 Metodologia Além disso foi incorporada uma nova variável ao conjunto de dados denominada Desempenho do Cliente Essa variável não estava presente originalmente na base mas foi simulada com valores entre 1 e 10 com o intuito de ilustrar o potencial analítico da introdução de métricas qualitativas na segmentação de clientes Conforme salientam Kotler e Keller 2012 a avaliação do desempenho dos clientes deve considerar não apenas aspectos financeiros mas também comportamentais e relacionais como a regularidade nos pagamentos engajamento com os serviços e feedbacks operacionais Embora a métrica de desempenho utilizada neste estudo tenha caráter ilustrativo sua inclusão representa uma boa prática na modelagem orientada ao cliente permitindo a construção de estratégias mais personalizadas e eficientes Com essas ações de limpeza transformação e criação de variáveis adicionais a base de dados passou a apresentar melhores condições para a aplicação de técnicas de clusterização assegurando maior robustez estatística coerência analítica e aplicabilidade prática aos resultados obtidos 442 Análise Estatística Depois da etapa de preparação da base de dados foi conduzida uma análise estatística exploratória com o objetivo de compreender em maior profundidade as características dos dados disponíveis antes da aplicação dos métodos de agrupamento Conforme argumentam Han Kamber e Pei 2012 a análise exploratória constitui uma etapa indispensável no processo de mineração de dados pois permite identificar padrões inconsistências tendências e valores atípicos que podem comprometer a integridade dos resultados extraídos pelas técnicas posteriores O primeiro passo consistiu no cálculo de medidas estatísticas descritivas como média valor mínimo máximo e amplitude com ênfase nas variáveis de maior relevância para o estudo a saber Faturamento Presumido e Quantidade de Funcionários Como apontam Fayyad et al 1996 a obtenção de resumos estatísticos é uma prática fundamental para lidar com grandes volumes de dados uma vez que facilita a interpretação inicial e auxilia na identificação de assimetrias e 140 Capítulo 4 Metodologia possíveis distorções A análise revelou que embora a maior parte das empresas apresente faturamento em faixas intermediárias algumas registram valores extremamente elevados chegando a cifras bilionárias Essa disparidade justifica a aplicação da transformação logarítmica ao faturamento procedimento amplamente adotado em estudos financeiros com o intuito de minimizar a influência de outliers e promover uma distribuição mais equilibrada dos dados TAN STEINBACH KUMAR 2019 Quanto à Quantidade de Funcionários verificouse uma heterogeneidade significativa entre as empresas analisadas com registros que variam de microestruturas operacionais a grandes corporações Essa diversidade reforça a necessidade de considerar múltiplos atributos no processo de segmentação como defendido por Kotler e Keller 2012 que enfatizam a importância de reconhecer a pluralidade de perfis no ambiente B2B onde diferentes portes organizacionais implicam necessidades e comportamentos comerciais distintos Para aprofundar a análise foi examinada a correlação entre o faturamento e o porte das empresas representado pela quantidade de colaboradores Utilizouse para isso o coeficiente de correlação de Pearson ferramenta estatística indicada por Han Kamber e Pei 2012 para avaliar a intensidade da associação linear entre variáveis numéricas O valor obtido próximo de 0043 revelou uma correlação praticamente nula entre essas variáveis indicando que o número de funcionários não é por si só um preditor direto do faturamento empresarial Esse achado está em consonância com a realidade do mercado B2B onde empresas enxutas em termos de pessoal como firmas de consultoria ou tecnologia podem apresentar faturamentos elevados ao passo que organizações com grande número de funcionários como prestadoras de serviços operacionais podem operar com margens de receita mais modestas Para ilustrar visualmente essa constatação foi construída uma matriz de correlação Figura 1 conforme recomendação de Tan Steinbach e Kumar 2019 Essa ferramenta permite a representação gráfica da força de relação entre pares de variáveis Na diagonal principal observase sempre o valor 1 que representa a autocorrelação de cada variável consigo mesma Fora da diagonal o valor de 0043 entre Faturamento e Funcionários reforça visualmente a ausência de relação direta entre essas variáveis 141 Capítulo 4 Metodologia Figura 12 Matriz de correlação entre Faturamento e Quantidade de Funcionários Essa visualização evidencia que as variáveis analisadas não possuem dependência linear o que é um indicativo importante para o processo de clusterização Isso demonstra que não é possível nem prudente assumir que uma empresa com maior número de funcionários necessariamente gera mais receita ou viceversa Tal constatação justifica a decisão metodológica de manter ambas as variáveis na modelagem visto que cada uma oferece uma dimensão analítica distinta agregando valor à identificação de padrões e à construção dos grupos Ao utilizar essas variáveis em conjunto no processo de agrupamento o algoritmo pode captar nuances específicas do perfil organizacional dos clientes Por exemplo é possível identificar clusters compostos por empresas de alta receita e estrutura reduzida como startups de base tecnológica bem como grupos formados por organizações com muitos funcionários mas com faturamento relativamente menor como empresas do setor de serviços operacionais ou intensivos em mão de obra 142 Capítulo 4 Metodologia A integração de variáveis que capturam diferentes aspectos do perfil empresarial potencializa a eficácia da segmentação tornandoa mais robusta e alinhada às exigências do mercado Essa abordagem também se mostra coerente com os princípios defendidos por Kotler e Keller 2012 que argumentam que estratégias comerciais bemsucedidas no ambiente B2B exigem uma compreensão holística do comportamento do cliente Ao evitar reducionismos e considerar a complexidade dos dados aumentase a probabilidade de gerar grupos mais coerentes e úteis para a definição de ações estratégicas de vendas prospecção e relacionamento 443 Mineração De Dados Com a base de dados devidamente limpa transformada e explorada estatisticamente foi possível avançar para a etapa de mineração de dados considerada uma das fases mais importantes do processo de Descoberta de Conhecimento em Bases de Dados Knowledge Discovery in Databases KDD conforme proposto por Fayyad et al 1996 Esta fase é responsável por extrair padrões úteis e estruturados a partir de grandes volumes de dados sendo particularmente relevante em contextos empresariais que visam gerar inteligência competitiva No escopo desta pesquisa a mineração de dados tem como finalidade identificar padrões ocultos no perfil dos clientes empresariais possibilitando a criação de estratégias mais personalizadas e eficazes de relacionamento comercial marketing e vendas Para isso recorrese ao uso de técnicas de agrupamento também chamadas de clustering que possibilitam organizar os clientes em grupos homogêneos de acordo com semelhanças estruturais e comportamentais HAN KAMBER PEI 2012 Dentre os diversos algoritmos de agrupamento disponíveis optouse pelo uso do KMeans amplamente reconhecido na literatura por sua eficácia na segmentação de dados numéricos contínuos simplicidade conceitual e rapidez de execução TAN STEINBACH KUMAR 2019 Tratase de um algoritmo de clustering não supervisionado ou seja que não requer informações prévias sobre as classes ou categorias dos dados Seu funcionamento baseiase na medição da similaridade 143 Capítulo 4 Metodologia entre registros por meio da distância euclidiana atribuindo cada ponto ao centroide mais próximo e iterativamente recalculando a posição dos centroides até atingir a convergência A ausência da necessidade de rótulos prévios torna o KMeans especialmente adequado para ambientes em que os dados não foram previamente classificados como é o caso de muitas bases comerciais reais permitindo a descoberta de estruturas latentes com autonomia Além do seu rigor matemático o KMeans se destaca por ser um dos métodos mais acessíveis em termos computacionais podendo ser executado com eficiência mesmo em bases de grande porte Isso o torna uma ferramenta altamente viável para ser utilizada por equipes comerciais e de marketing que muitas vezes não dispõem de suporte técnico contínuo Outro diferencial relevante está na clareza dos seus resultados que facilita a interpretação e aplicação prática dos clusters identificados característica essencial quando se busca utilizar a análise de dados como ferramenta de apoio à tomada de decisão estratégica KOTLER KELLER 2012 Durante o delineamento metodológico deste trabalho outras técnicas também foram consideradas a fim de assegurar que a escolha do algoritmo mais adequado fosse pautada em critérios de coerência com os objetivos da pesquisa A Análise Fatorial por exemplo é frequentemente utilizada para redução de dimensionalidade agrupando variáveis correlacionadas em componentes principais e facilitando a visualização e interpretação de grandes conjuntos de dados HAIR et al 2009 Contudo como este estudo concentrouse em um número propositalmente reduzido de variáveis especificamente o Faturamento e a Quantidade de Funcionários optouse por não aplicar métodos de redução preservando a interpretação direta dos clusters gerados a partir dessas variáveis brutas De forma semelhante algoritmos supervisionados como Árvore de Decisão e Random Forest são frequentemente utilizados em tarefas preditivas em que existe um atributo de interesse variávelalvo conhecido e rotulado HAN KAMBER PEI 2012 Porém como a intenção deste trabalho não é prever um resultado específico mas sim descobrir padrões naturais de agrupamento entre empresas esses métodos supervisionados não se mostraram apropriados ao problema em questão Avaliaramse ainda abordagens mais sofisticadas como os algoritmos inspirados em inteligência de enxames por exemplo a Otimização por Colônia de Formigas Ant 144 Capítulo 4 Metodologia Colony Optimization ACO que apesar de sua eficácia em contextos de alta complexidade apresentam custo computacional elevado e exigem parametrização cuidadosa para convergir a soluções estáveis Tais requisitos dificultam sua aplicação em ambientes empresariais rotineiros nos quais a simplicidade operacional e a rapidez na obtenção de insights são características decisivas TAN STEINBACH KUMAR 2019 Dentro desses aspectos a escolha pelo algoritmo KMeans demonstrouse a mais adequada tanto do ponto de vista técnico quanto prático conciliando rigor analítico velocidade de processamento e usabilidade Essa decisão metodológica está em consonância com a proposta deste estudo que busca entregar uma solução robusta e aplicável para segmentação de clientes no contexto B2B promovendo uma análise baseada em dados com potencial de impacto direto nas estratégias comerciais da organização Diante das comparações realizadas entre diferentes abordagens o algoritmo KMeans foi definitivamente escolhido como a técnica central de agrupamento para este trabalho devido ao seu equilíbrio entre simplicidade operacional eficiência computacional qualidade dos agrupamentos gerados e clareza dos resultados obtidos Para determinar o número ótimo de clusters a ser utilizado no algoritmo foi aplicado o método do cotovelo elbow method amplamente recomendado por Han Kamber e Pei 2012 como uma das formas mais eficazes de validar a quantidade de agrupamentos em cenários não supervisionados Essa técnica consiste em calcular a soma das distâncias quadráticas dentro dos clusters inércia intracluster para diferentes valores de kkk e observar em qual ponto o ganho marginal na redução dessa inércia se torna pouco expressivo formando um cotovelo na curva o que indica o número ideal de clusters para balancear qualidade da segmentação e parcimônia interpretativa Figura 13 Gráfico do método do cotovelo para definição do número de clusters dados brutos 145 Capítulo 4 Metodologia A análise inicial foi realizada utilizando os dados de Faturamento na forma original sem transformações A Figura 2 apresenta o gráfico gerado nessa etapa em que se nota uma queda acentuada nos primeiros valores de kkk sinalizando que o algoritmo é eficaz em reduzir a variabilidade dentro dos grupos à medida que mais clusters são adicionados No entanto observase também que a partir de determinado ponto essa taxa de redução desacelera consideravelmente indicando que a adição de novos agrupamentos não oferece ganhos substanciais na compactação dos dados Esse comportamento é típico em bases com alta variabilidade interna HAN KAMBER PEI 2012 como aquelas compostas por registros financeiros empresariais e reforça a aplicabilidade do método do cotovelo como instrumento diagnóstico Apesar disso um obstáculo importante emergiu nessa primeira análise a presença de valores extremos de Faturamento outliers bastante comuns em bases do tipo B2B especialmente quando há empresas de grande porte inseridas no mesmo conjunto que pequenas e médias organizações Esses valores fora da curva distorcem a distribuição e afetam diretamente a métrica de inércia fazendo com que 146 Capítulo 4 Metodologia o gráfico do cotovelo perca definição e dificulte a visualização do ponto de inflexão exato Conforme descrevem Han Kamber e Pei 2012 esse fenômeno é recorrente em bases com ampla dispersão numérica e exige estratégias de tratamento específico como normalização ou transformação de escala Como solução foi adotada a transformação logarítmica da variável Faturamento prática consagrada na literatura estatística para lidar com distribuições assimétricas e escalas amplas especialmente em dados financeiros TAN STEINBACH KUMAR 2019 Ao aplicar o logaritmo as diferenças entre os valores se comprimem reduzindo a influência de outliers e equilibrando a contribuição dos dados para o cálculo da inércia A reaplicação do método do cotovelo com a nova variável transformada está ilustrada na Figura 3 Observase neste novo gráfico que a curva se torna mais suave e o ponto de inflexão mais nítido permitindo identificar com maior segurança o número ótimo de clusters a ser utilizado Essa transformação portanto não apenas melhora a qualidade estatística da análise como também fortalece sua robustez metodológica eliminando ruídos causados por distorções extremas na escala de Faturamento Complementarmente para reforçar a escolha do número de agrupamentos e validar visualmente a coerência dos clusters gerados foram elaborados gráficos de dispersão conforme recomendação de Han Kamber e Pei 2012 que destacam a importância da visualização como recurso para validar padrões de agrupamento e comunicar resultados de maneira acessível a públicos não técnicos A Figura 13 apresenta o gráfico de dispersão elaborado com os dados originais de Faturamento versus Quantidade de Funcionários e nela é possível perceber uma forte concentração de pontos em uma faixa estreita com alguns registros distantes à direita do plano representando empresas de altíssimo faturamento Essa compressão compromete a clareza da visualização e pode obscurecer os agrupamentos reais Em resposta a essa limitação foi gerado um novo gráfico de dispersão agora com o Faturamento transformado logaritmicamente conforme apresentado na Figura 5 Essa modificação melhora substancialmente a distribuição visual dos dados permitindo observar com mais nitidez como os pontos se organizam no espaço bidimensional e consequentemente como os clusters se definem Essa abordagem confirma de maneira empírica e visual que a transformação logarítmica 147 Capítulo 4 Metodologia não apenas aprimora os resultados do método do cotovelo mas também potencializa a capacidade do KMeans de formar grupos mais bem definidos coerentes e aderentes à realidade mercadológica Ao reduzir os efeitos dos extremos a análise tornase mais representativa da distribuição da maioria das empresas da base possibilitando a formulação de estratégias comerciais mais precisas e contextualizadas Figura 14 Gráfico do método do cotovelo com transformação logarítmica do Faturamento A análise do gráfico do método do cotovelo após a aplicação da transformação logarítmica sobre a variável Faturamento revelou uma mudança significativa no comportamento da curva Ao suavizar a distribuição dos dados a transformação eliminou distorções provocadas pelos valores extremamente elevados de algumas empresas que anteriormente exerciam influência desproporcional sobre os cálculos de inércia intracluster Como ressaltam Tan Steinbach e Kumar 2019 esse tipo de transformação é altamente recomendado em contextos de análise financeira pois permite uma melhor estabilização da variância e viabiliza uma interpretação mais precisa da estrutura latente dos dados Como resultado o ponto de inflexão que indica a quantidade ótima de 148 Capítulo 4 Metodologia agrupamentos tornouse visualmente mais nítido facilitando sua identificação e consequentemente aumentando a confiabilidade do modelo de segmentação HAN KAMBER PEI 2012 Paralelamente à análise numérica proporcionada pelo método do cotovelo recorreuse ao uso de gráficos de dispersão como técnica complementar de validação visual dos agrupamentos Essa prática é incentivada por Han Kamber e Pei 2012 que reconhecem a importância das representações gráficas como ferramentas essenciais para avaliar a coesão e a separabilidade dos clusters formados sobretudo quando o objetivo é comunicar os achados a públicos diversos incluindo gestores e tomadores de decisão não especializados em ciência de dados Os gráficos de dispersão facilitam a observação intuitiva dos padrões de distribuição mostrando como os registros se posicionam em relação às variáveis principais neste estudo Faturamento e Quantidade de Funcionários A Figura 14 apresenta o gráfico de dispersão construído com os dados de Faturamento em sua escala original Notase uma alta concentração de pontos próximos à origem do plano cartesiano o que indica que a maioria das empresas possui faturamentos relativamente baixos No entanto observase também a presença de pontos isolados e muito distantes no eixo horizontal correspondentes a empresas com faturamentos excepcionalmente elevados Essa disparidade gera uma compressão visual dos dados dificultando a identificação clara dos agrupamentos e comprometendo a análise visual da distribuição dos clientes Para contornar essa limitação e aprimorar a qualidade da visualização foi gerado um novo gráfico de dispersão com o Faturamento transformado logaritmicamente conforme orientações metodológicas de Tan Steinbach e Kumar 2019 A Figura 5 exibe os resultados dessa abordagem evidenciando uma distribuição muito mais homogênea dos dados no espaço bidimensional Com a compressão da escala os pontos passam a se posicionar de forma mais equilibrada permitindo visualizar com maior nitidez os contornos de cada cluster Essa clareza reforça a qualidade do agrupamento gerado pelo algoritmo KMeans que agora opera sobre uma base de dados menos assimétrica e mais representativa da realidade mercadológica 149 Capítulo 4 Metodologia Portanto a aplicação da transformação logarítmica tanto na análise do método do cotovelo quanto na visualização por dispersão revelouse uma estratégia metodológica eficaz para lidar com a natureza desigual dos dados financeiros empresariais A melhora na definição dos clusters não apenas contribui para a robustez da modelagem mas também facilita sua aplicação prática permitindo que os resultados gerados orientem decisões comerciais mais precisas e segmentadas Figura 15 Distribuição dos clusters considerando Faturamento original e Quantidade de Funcionários Ao analisar a Figura 15 observase uma forte concentração de pontos próximos ao valor zero no eixo de Faturamento com apenas um pequeno número de empresas posicionadas mais à direita do gráfico evidenciando valores de faturamento consideravelmente elevados Esse tipo de distribuição desigual é característico de bases de dados empresariais especialmente em contextos B2B nos quais um número reduzido de grandes contas concentra a maior parte da receita da empresa enquanto a maioria dos clientes possui faturamentos mais modestos HAN KAMBER PEI 2012 Essa assimetria severa compromete a utilidade do gráfico de dispersão original pois os dados da maior parte dos clientes ficam 150 Capítulo 4 Metodologia comprimidos em uma faixa muito estreita dificultando a distinção de perfis e a visualização de possíveis agrupamentos Para mitigar essa distorção e permitir uma análise mais clara e representativa foi aplicada uma transformação logarítmica na variável Faturamento Tal estratégia é amplamente recomendada na literatura especializada como forma eficaz de lidar com variáveis altamente assimétricas e de atenuar a influência de outliers TAN STEINBACH KUMAR 2019 A Figura 5 que apresenta o gráfico de dispersão com o Faturamento já transformado evidencia uma distribuição mais equilibrada ao longo do eixo horizontal Os pontos agora se espalham de maneira mais homogênea o que facilita não apenas a percepção visual dos clusters mas também melhora os cálculos de distância realizados pelo algoritmo KMeans resultando em agrupamentos mais coerentes e consistentes com a realidade de mercado Além dos ganhos técnicos a transformação logarítmica também contribui para a clareza da comunicação dos resultados especialmente quando apresentados a públicos não técnicos O gráfico com a escala ajustada oferece uma representação visual mais acessível e intuitiva permitindo que gestores e tomadores de decisão compreendam facilmente as justificativas adotadas nas etapas de pré processamento como defendido por Han Kamber e Pei 2012 Essa abordagem favorece a aceitação prática do modelo e fortalece sua aplicação no ambiente corporativo Portanto a comparação entre os gráficos de dispersão com o Faturamento em escala original Figura 16 e transformada Figura 5 comprova que o uso do logaritmo foi uma decisão metodológica essencial para aprimorar a qualidade da clusterização A transformação permitiu que o algoritmo detectasse padrões mais representativos da diversidade empresarial ao mesmo tempo que facilitou a visualização e interpretação dos dados Com isso os objetivos da segmentação identificar grupos de clientes mais precisos úteis e alinhados às estratégias comerciais foram alcançados com maior eficácia Figura 16 Distribuição dos clusters considerando Faturamento transformado em log e Quantidade de Funcionários 151 Capítulo 4 Metodologia A análise dos gráficos de dispersão comprova de forma clara e objetiva que a combinação do algoritmo KMeans com a transformação logarítmica da variável Faturamento constitui uma estratégia altamente eficaz para a segmentação de clientes em grupos mais homogêneos Essa abordagem equilibra a distribuição dos dados e revela padrões que seriam mascarados por valores extremos conforme ressaltam Han Kamber e Pei 2012 e Tan Steinbach e Kumar 2019 Ao suavizar as discrepâncias provocadas por grandes outliers a transformação permite ao algoritmo formar clusters mais representativos da realidade empresarial A aplicação conjunta dessas técnicas assegura que o agrupamento final reflita com maior fidelidade a diversidade dos perfis de clientes oferecendo uma leitura mais justa tanto para pequenas empresas quanto para grandes contas estratégicas Como destacam Kotler e Keller 2012 a clareza na definição dos segmentos é essencial para que as áreas comerciais e de marketing possam alinhar suas ações ao potencial de cada grupo promovendo maior eficácia nas estratégias de prospecção relacionamento e fidelização Adicionalmente a visualização gráfica dos clusters favorece a compreensão dos resultados por gestores e equipes operacionais que não possuem formação 152 Capítulo 4 Metodologia técnica tornando a segmentação uma ferramenta acessível e prática no apoio ao planejamento comercial Essa acessibilidade permite por exemplo a personalização de ofertas e a alocação mais inteligente de recursos garantindo que o esforço comercial seja concentrado nos clusters com maior potencial de receita e valor de relacionamento ao longo do tempo Dessa forma consolidase uma atuação orientada por dados alinhada à estratégia de negócios e voltada à maximização do retorno sobre os investimentos realizados KOTLER KELLER 2012 444 Simulação de métricas de negócio Para complementar a análise técnica dos clusters e estabelecer uma conexão direta e prática entre a segmentação de clientes e os indicadores estratégicos fundamentais para a gestão comercial em ambientes B2B este estudo realizou uma simulação aplicada de duas métricas amplamente reconhecidas e utilizadas no contexto corporativo o Custo de Aquisição de Clientes CAC e o Lifetime Value LTV Essas métricas são essenciais para a compreensão da eficiência dos investimentos comerciais e para a formulação de estratégias que maximizem o retorno sobre o capital aplicado conforme destacado por Kotler e Keller 2012 O Lifetime Value LTV ou valor vitalício do cliente representa o montante financeiro estimado que uma empresa pode gerar ao longo de todo o relacionamento com um cliente sendo uma métrica crucial para avaliar a lucratividade potencial de contas individuais ou segmentos específicos Considerando a ausência de dados históricos detalhados como duração exata do relacionamento ou taxas de churn optouse por uma abordagem prática e simplificada para a estimativa do LTV Neste estudo o LTV foi estimado como 120 do faturamento atual de cada cliente simulando cenários comuns e realistas do mercado B2B que envolvem renovações contratuais vendas adicionais upsell e vendas cruzadas crosssell Essa metodologia está alinhada às orientações de Stone e Woodcock 2014 que recomendam a adaptação do cálculo de LTV às características e limitações das bases de dados disponíveis É importante ressaltar que idealmente o LTV deve incorporar fatores dinâmicos como a duração do ciclo de vida do cliente frequência e recorrência de 153 Capítulo 4 Metodologia compras e comportamento de fidelização No entanto dada a restrição de dados históricos detalhados a simulação percentual adotada aqui possibilitou comparações realistas e consistentes entre os clusters formados oferecendo uma perspectiva relativa e prática sobre o valor potencial de cada grupo Por sua vez o Custo de Aquisição de Clientes CAC foi estimado com base em uma média representativa dos custos envolvidos na aquisição de cada cliente Essa média contemplou despesas típicas do contexto B2B como investimentos em marketing deslocamentos salários e comissões da equipe comercial bem como custos operacionais associados à preparação e apresentação de propostas comerciais Tal estimativa está em conformidade com a definição de Kotler e Keller 2012 que enfatizam que o CAC deve refletir o conjunto de investimentos necessários para converter um prospect em cliente efetivo especialmente em processos de vendas consultivas e complexas características marcantes do ambiente B2B Com essas duas métricas simuladas para cada cliente da base foi possível calcular as médias de LTV e CAC por cluster criando assim um panorama comparativo detalhado da rentabilidade relativa de cada segmento Essa análise comparativa é fundamental para identificar quais clusters apresentam o equilíbrio mais favorável entre o custo de aquisição e o retorno financeiro esperado subsidiando decisões estratégicas de alocação de recursos otimização do funil comercial e priorização dos esforços de marketing e vendas Stone Woodcock 2014 A Figura 17 ilustra um gráfico de dispersão que posiciona cada cluster de acordo com seus valores médios de CAC e LTV Cada ponto representa um cluster distinto permitindo uma visualização clara e imediata dos grupos mais atrativos caracterizados por um alto LTV associado a um CAC controlado e daqueles com baixo retorno financeiro combinado a custos de aquisição elevados que indicam possíveis ineficiências e desperdícios operacionais Figura 17 Relação entre CAC e LTV médios por cluster 154 Capítulo 4 Metodologia Observase na Figura 17 que determinados clusters se destacam por Observase na Figura 17 que determinados clusters se destacam por apresentar um LTV médio elevado mesmo mantendo CACs próximos ou abaixo da média geral Essa constatação valida a premissa de Kotler e Keller 2012 de que clientes de alto valor embora possam demandar investimentos iniciais maiores compensam amplamente esses custos por meio de ciclos de compra mais longos maior fidelidade e ticket médio elevado Esses clusters configuramse como contas estratégicas prioritárias que justificam a implementação de ações intensivas e personalizadas de relacionamento incluindo atendimento dedicado consultorias especializadas e propostas sob medida Em contrapartida a análise também evidenciou clusters com LTV relativamente baixo mas que apresentam CACs similares aos grupos mais rentáveis Conforme alertam Stone e Woodcock 2014 essa situação representa um risco operacional significativo a alocação de recursos comerciais em clientes de baixa rentabilidade pode gerar sobrecarga da força de vendas reduzir a eficiência operacional e comprometer o retorno global dos investimentos comerciais Tal 155 Capítulo 4 Metodologia cenário reforça a importância de diferenciar os níveis de atendimento e investimento segundo o potencial econômico real de cada cluster Essa leitura prática e visual do gráfico permite a definição de critérios objetivos para priorização e alocação de esforços comerciais Clusters com alto LTV e CAC sob controle devem ser acompanhados por executivos de contas especializados programas de fidelização e estratégias de upsell e crosssell estruturadas Já os grupos menos rentáveis demandam modelos de atendimento escaláveis automatizados e de baixo custo como canais digitais suporte remoto e propostas padronizadas garantindo cobertura comercial eficiente sem comprometer a rentabilidade Em síntese a análise conjunta de LTV e CAC não apenas valida a qualidade técnica da clusterização mas sobretudo traduz os resultados em recomendações estratégicas de aplicação imediata e prática Essa integração entre mineração de dados e gestão comercial assegura maior racionalidade e eficiência na alocação de recursos aprimora o retorno sobre investimentos e contribui diretamente para o aumento sustentável da lucratividade da base de clientes Stone Woodcock 2014 Kotler Keller 2012 156 CAPÍTULO 5 5 RESULTADOS E DISCUSSÃO 51 RESULTADOS Após o processamento completo dos dados e a aplicação do algoritmo KMeans o conjunto de clientes foi segmentado em cinco clusters bem definidos cada um caracterizado por perfis financeiros e operacionais distintos Essa segmentação permitiu revelar padrões relevantes que sustentam decisões mais estratégicas em termos de priorização de clientes personalização de ofertas estruturação de pacotes de serviços e planejamento de ações de relacionamento de longo prazo Essa abordagem está alinhada com os princípios defendidos por Stone e Woodcock 2014 que destacam a importância do uso de técnicas de agrupamento para tornar a gestão de clientes mais eficiente e personalizada O Cluster 0 emergiu como o grupo mais expressivo em termos financeiros apresentando um faturamento médio superior a R 63 bilhões e um LTV estimado em aproximadamente R 756 bilhões Notavelmente o CAC médio para conquistar ou manter clientes desse grupo foi de apenas R 307844 valor muito próximo ao dos clusters de menor retorno Esse resultado confirma a ideia de retorno elevado sobre investimento uma vez que contas estratégicas com alto potencial de receita justificam abordagens mais robustas de relacionamento e investimento consultivo KOTLER KELLER 2012 Portanto a recomendação é que o time comercial priorize esse cluster com estratégias de fidelização personalizadas atendimento dedicado e construção de relacionamentos de longo prazo Em contraposição o Cluster 1 agrega empresas com faturamento médio de R 34 milhões e LTV aproximado de R 41 milhões mas cujo CAC médio R 305060 praticamente se iguala ao do Cluster 0 Com uma média de 83 funcionários por empresa essas organizações são em geral de pequeno porte Como sugerem Kotler e Keller 2012 clientes de baixo valor devem ser atendidos com soluções automatizadas e de menor custo operacional evitando onerar o processo comercial com abordagens consultivas não rentáveis 157 Resultados e Discussão De forma semelhante o Cluster 2 também apresenta faturamento médio de R 338 milhões e LTV de cerca de R 406 milhões com um CAC de R 288247 No entanto distinguese pelo maior porte médio das empresas com aproximadamente 284 funcionários Esse perfil indica operações mais estruturadas porém com margens potencialmente mais estreitas Para esse tipo de segmento Stone e Woodcock 2014 recomendam a adoção de estratégias escaláveis como vendas em massa propostas automatizadas e menor envolvimento da equipe de campo maximizando a eficiência operacional O Cluster 3 por sua vez apresenta um perfil intermediário entre valor e estrutura As empresas desse grupo possuem um faturamento médio de R 156 milhões com LTV estimado de R 187 milhões além de um CAC de R 281356 o mais baixo entre todos os clusters A média de 1082 funcionários sugere uma base com alto grau de maturidade operacional Essa combinação reforça a hipótese de que clientes com processos internos mais robustos tendem a ter maior permanência e recorrência o que justifica investimentos em programas de crosssell e suporte contínuo KOTLER KELLER 2012 Já o Cluster 4 apresenta um perfil médio com faturamento de R 196 milhões LTV de R 235 milhões e CAC de R 305990 Com uma estrutura organizacional mais enxuta 203 funcionários em média esse grupo demonstra potencial para a adoção de pacotes modulares e escaláveis permitindo adequação das soluções ofertadas conforme o crescimento ou sazonalidade do cliente o que pode maximizar margem e flexibilidade comercial STONE WOODCOCK 2014 A comparação entre os clusters permite destacar um princípio estratégico essencial os grupos que combinam alto LTV com CAC controlado devem ser priorizados nas ações comerciais e nos investimentos de relacionamento pois apresentam o maior retorno por esforço investido Em contrapartida clusters de baixo LTV com CAC semelhante aos demais exigem atenção pois tendem a representar menor rentabilidade e portanto devem ser atendidos com modelos mais automatizados e enxutos KOTLER KELLER 2012 Além disso conforme verificado na matriz de correlação apresentada anteriormente não há relação direta entre a quantidade de funcionários e o faturamento das empresas reforçando a importância de considerar múltiplos 158 Resultados e Discussão critérios na segmentação A simples análise de uma variável isolada pode gerar interpretações equivocadas enquanto a análise combinada permite identificar padrões mais representativos da realidade dos clientes Por fim para facilitar o entendimento por parte dos gestores e permitir uma visão mais prática e orientada à tomada de decisão recomendase a construção de um quadro resumo com as médias de Faturamento LTV CAC e Funcionários por cluster Essa síntese gráfica pode servir como base objetiva para definir prioridades comerciais desenvolver planos de ação e otimizar os recursos destinados a cada perfil de cliente Tabela 1 Resumo dos clusters com métricas médias de negócio Cluster Faturamento Médio R LTV Médio R CAC Médio R Funcionários Médios 0 6300000000 7560000000 307844 233 1 34000000 41000000 305060 83 2 33800000 40600000 288247 284 3 156000000 187000000 281356 1082 4 196000000 235000000 305990 203 Em síntese os resultados obtidos demonstram que a segmentação proposta além de agrupar tecnicamente os clientes com base em critérios relevantes proporciona insights acionáveis e altamente úteis para a gestão comercial da empresa A análise dos clusters permite uma compreensão aprofundada dos diferentes perfis da carteira subsidiando decisões como a priorização de atendimento a personalização de pacotes de serviços a alocação mais racional dos recursos comerciais e a otimização dos investimentos em aquisição de novos clientes Esse alinhamento entre análise de dados e aplicação prática é essencial para garantir que as estratégias de marketing e vendas resultem em retorno financeiro efetivo Kotler e Keller 2012 ressaltam que o sucesso na gestão de clientes 159 Resultados e Discussão depende justamente da capacidade de transformar dados em ações concretas de relacionamento e retenção indo além da simples análise descritiva Além disso conforme reforçado por Stone e Woodcock 2014 a utilização de técnicas de clusterização aliada a métricas estratégicas de negócio como o CAC e o LTV representa uma das abordagens mais eficazes para assegurar que a segmentação contribua diretamente para o aumento da lucratividade da empresa Ao identificar grupos de alto valor com custos controlados de aquisição a organização pode direcionar seus esforços de forma mais inteligente promovendo a fidelização das contas mais relevantes e assegurando um crescimento sustentável da base de clientes 511 Discussão Estratégica dos Clusters A segmentação realizada por meio do algoritmo KMeans possibilitou a identificação de cinco clusters distintos cada um com características financeiras operacionais e estratégicas específicas que demandam abordagens personalizadas para otimização de recursos retenção de clientes e potencial crescimento A análise aprofundada desses grupos traz insights valiosos para a formulação de estratégias comerciais mais eficazes Cluster 0 Clientes Premium Alto Faturamento e Alto LTV Faturamento Médio R 63 bilhões LTV Médio R 756 bilhões CAC Médio R 307844 Funcionários Médios 233 Este cluster representa a base mais valiosa com elevado retorno sobre investimento ROI O CAC similar ao dos demais grupos aliado a um LTV significativamente maior evidencia a eficiência na aquisição e retenção desses clientes Recomendase atendimento consultivo personalizado por meio de equipes dedicadas Key Account Management além da implementação de programas exclusivos de fidelização que incluam benefícios como acesso antecipado a 160 Resultados e Discussão produtos e suporte prioritário Estratégias de upselling e crossselling também são altamente recomendadas para explorar o potencial financeiro deste grupo Clusters 1 e 2 Pequenas e Médias Empresas PMEs com Baixo LTV e CAC Similar Cluster 1 Faturamento R 34 milhões LTV R 41 milhões CAC R 305060 Funcionários 83 Cluster 2 Faturamento R 338 milhões LTV R 406 milhões CAC R 288247 Funcionários 284 Apesar de apresentarem CAC próximo ao Cluster 0 o LTV inferior indica menor rentabilidade A principal distinção está no porte operacional sendo o Cluster 1 composto por empresas menores e o Cluster 2 por organizações com estruturas mais complexas Estratégias para estes grupos devem focar na automação do atendimento com uso de chatbots e portais de autoatendimento para reduzir custos além da oferta de pacotes de serviços padronizados e escaláveis Canais digitais e telemarketing são recomendados para ampliar as vendas em massa diminuindo a dependência de abordagens presenciais Cluster 3 Empresas de Médio Porte com Alto Potencial de Retenção Faturamento R 156 milhões LTV R 187 milhões CAC R 281356 o mais baixo Funcionários 1082 Este grupo apresenta o melhor equilíbrio entre LTV e CAC refletindo elevada eficiência na retenção Empresas maduras com maior número de funcionários e processos consolidados compõem este cluster Recomendase a implementação de programas contínuos de crossselling suporte proativo com checkins regulares e estabelecimento de parcerias estratégicas de longo prazo para fortalecer a fidelidade Cluster 4 Empresas com Estrutura Enxuta e Potencial de Crescimento Faturamento R 196 milhões LTV R 235 milhões 161 Resultados e Discussão CAC R 305990 Funcionários 203 Apesar de um faturamento superior ao Cluster 3 estas empresas apresentam estruturas mais enxutas indicando eficiência operacional O CAC mais elevado pode demandar maior esforço comercial porém compensado pelo LTV Estratégias recomendadas incluem a oferta de soluções modulares e flexíveis atenção ao crescimento orgânico dos clientes e programas de fidelização baseados em incentivos vinculados ao volume de compras Esta análise evidencia a necessidade de Priorização dos investimentos em Clientes Premium Cluster 0 e no Cluster 3 que apresentam maior eficiência e potencial de retorno Redução de custos e automação para os clusters com menor LTV 1 e 2 Expansão de receita por meio de upselling nos Clusters 0 e 3 e cross selling nos Clusters 3 e 4 A gestão comercial poderá se beneficiar da implementação de dashboards para acompanhamento contínuo da evolução desses segmentos além do teste e refinamento de estratégias específicas para cada cluster garantindo maior assertividade e sustentabilidade no relacionamento com os clientes 52 DISCUSSÃO A presente análise reforça de maneira consistente a eficácia da segmentação de clientes por meio de técnicas avançadas de clusterização destacando seu papel estratégico na otimização da gestão comercial em ambientes B2B Mercados corporativos marcados por ciclos de venda extensos elevado custo de aquisição de clientes CAC e alta competitividade exigem uma abordagem analítica sofisticada que permita a identificação clara dos diferentes perfis de clientes para assim maximizar o retorno sobre investimento ROI Como ressaltado por Kotler e Keller 162 Resultados e Discussão 2012 o sucesso em tais mercados depende da capacidade de alocar recursos com precisão priorizando clientes que apresentem maior potencial de rentabilidade e valor ao longo do tempo A segmentação realizada neste estudo resultou na definição de cinco clusters distintos que não apenas categorizam a base de clientes mas também revelam padrões complexos e multifacetados de comportamento valor econômico e potencial de crescimento Estes insights possibilitam a formulação de estratégias comerciais altamente direcionadas baseadas na priorização inteligente de clientes personalização de ofertas e otimização dos custos de atendimento e aquisição O Cluster 0 identificado como o grupo estratégico mais valioso apresenta um Lifetime Value LTV médio aproximadamente 184 vezes superior ao seu CAC o que demonstra uma eficiência excepcional na geração de valor Tal relação justifica a adoção de modelos de atendimento consultivo altamente personalizados e dedicados apoiados por programas exclusivos de fidelização e benefícios premium uma prática que converte o investimento em atendimento em vantagem competitiva sustentável conforme argumentado por Stone e Woodcock 2014 Para esse grupo a retenção e o desenvolvimento de relacionamento devem ser tratados como prioridades absolutas visto o seu impacto significativo na receita e lucratividade da empresa Em contrapartida os Clusters 1 e 2 compostos predominantemente por pequenas e médias empresas PMEs embora apresentem CAC comparável ao Cluster 0 exibem LTV substancialmente inferior evidenciando menor rentabilidade e consequentemente uma margem operacional mais estreita Essa realidade demanda a adoção de soluções escaláveis e economicamente viáveis como a automação de processos de vendas e atendimento digitalizado que reduzam os custos operacionais e permitam o atendimento eficiente sem comprometer a experiência do cliente Essa recomendação está alinhada às melhores práticas destacadas por Kotler e Keller 2012 que enfatizam a importância de modelos de atendimento segmentados e tecnológicos para segmentos menos rentáveis Além disso o Cluster 3 caracterizado por empresas de médio porte demonstra um equilíbrio eficiente entre LTV e CAC sugerindo alta eficácia nas práticas de retenção e potencial significativo para expansão via estratégias de cross 163 Resultados e Discussão selling e upselling Empresas deste cluster costumam possuir estruturas organizacionais mais maduras com processos consolidados o que facilita a implementação de programas contínuos de suporte proativo e parcerias estratégicas de longo prazo fomentando a fidelização e a ampliação da receita O Cluster 4 formado por empresas com estruturas enxutas apresenta elevado faturamento e LTV mas com um CAC ligeiramente superior o que indica uma necessidade maior de esforços comerciais personalizados Para esse segmento recomendase a oferta de soluções modulares e flexíveis que possam ser ajustadas conforme as necessidades sazonais e estratégias de crescimento orgânico apoiadas por incentivos de fidelização baseados em volume de compras e recompensas Importante destacar que a clusterização deve ser encarada como um processo dinâmico e adaptativo que precisa acompanhar as transformações do mercado as mudanças no comportamento dos clientes e o contexto econômico Han Kamber e Pei 2012 enfatizam que a segmentação deve ser recalibrada periodicamente especialmente diante de eventos disruptivos como crises econômicas mudanças regulatórias ou avanços tecnológicos que alterem as relações comerciais A introdução de métricas simuladas como LTV e CAC neste estudo possibilitou uma análise aproximada da realidade mas a incorporação de dados em tempo real incluindo frequência de compras inadimplência e indicadores comportamentais ampliaria significativamente a precisão e a aplicabilidade das estratégias resultantes Para operacionalizar essa visão dinâmica recomendase a implementação de dashboards interativos capazes de oferecer monitoramento contínuo da evolução dos clusters bem como sistemas de alertas automáticos que sinalizem movimentações e alterações nos perfis dos clientes Revisões periódicas do modelo realizadas com base em análises trimestrais garantirão a manutenção da relevância e eficiência das ações comerciais e estratégicas A metodologia aplicada embora centrada no setor de cobrança possui alta capacidade de replicação para diversos segmentos B2B como o setor tecnológico segmentação de clientes SaaS por ticket médio churn rate e engajamento indústria baseada em volume de compras sazonalidade e ciclo produtivo e 164 Resultados e Discussão serviços especializados segmentação por porte complexidade e demanda O sucesso na adaptação do modelo depende da seleção criteriosa de variáveis que representem fielmente o comportamento e o valor do cliente em cada contexto setorial conforme sugerido por Stone e Woodcock 2014 Reconhecese porém que este estudo apresenta algumas limitações que devem ser abordadas em trabalhos futuros tais como a utilização de dados simulados para CAC e LTV o que pode comprometer a precisão dos resultados e a ausência de variáveis comportamentais e qualitativas como indicadores de satisfação e Net Promoter Score NPS Pesquisas futuras devem priorizar a coleta de dados reais a inclusão de métricas qualitativas e o uso de algoritmos alternativos para segmentação como DBSCAN e Random Forest visando aprimorar a robustez e a aplicabilidade prática dos modelos Em síntese a segmentação por clusterização quando integrada a indicadores financeiros e operacionais consolidase como ferramenta fundamental para Otimizar a alocação de recursos comerciais direcionando investimentos para clientes de maior valor Personalizar estratégias de vendas e fidelização aumentando o engajamento e a satisfação do cliente Antecipar tendências e ajustar o modelo de negócios de forma ágil e proativa Ao transformar dados analíticos em decisões estratégicas as empresas ampliam sua rentabilidade e constroem relacionamentos sólidos e duradouros assegurando sustentabilidade e vantagem competitiva em mercados cada vez mais desafiadores Os próximos passos práticos recomendados incluem Implementação de sistemas de monitoramento em tempo real para acompanhamento contínuo dos clusters Desenvolvimento de planos de ação específicos e customizados para cada segmento identificado Condução de experimentos controlados testes AB para validar e aprimorar estratégias comerciais 165 Resultados e Discussão Essa abordagem alinhada às melhores práticas de Customer Relationship Management CRM e inteligência analítica posiciona a organização em um patamar elevado de gestão inteligente da base de clientes potencializando a eficiência operacional a lucratividade e o crescimento sustentável no longo prazo 166 CONCLUSÃO Este trabalho teve como objetivo central demonstrar de forma prática aplicada e fundamentada como a clusterização de clientes pode se consolidar como uma ferramenta robusta e estratégica para aprimorar a gestão comercial de empresas B2B Alinhado às recomendações clássicas de Kotler e Keller 2012 que enfatizam a segmentação como alicerce para estratégias de marketing direcionadas e eficazes o estudo estruturou a segmentação utilizando variáveis de fácil obtenção e mensuração tais como Faturamento e Quantidade de Funcionários enriquecidas por métricas simuladas de elevada relevância gerencial como o Lifetime Value LTV e o Custo de Aquisição de Clientes CAC conforme preconizado por Stone e Woodcock 2014 A metodologia adotada seguiu um fluxo rigoroso e sistemático que compreendeu desde a seleção criteriosa e limpeza da base de dados passando pela transformação e padronização das variáveis até a aplicação da análise estatística e a implementação do algoritmo KMeans Para garantir a robustez da segmentação foram utilizados métodos reconhecidos para validação da qualidade dos clusters como o método do cotovelo e o coeficiente de Silhouette conforme os parâmetros sugeridos por Han Kamber e Pei 2012 Esse processo permitiu a identificação de cinco clusters consistentes e coerentes evidenciando diferenças claras e relevantes entre os grupos em termos de receita potencial estrutura operacional e esforço requerido para aquisição e retenção de clientes Um dos principais achados da análise foi a constatação de que o número de funcionários isoladamente não se configura como um preditor confiável do faturamento Tal descoberta reforça a necessidade imperativa de empregar múltiplos critérios e variáveis integradas na construção de segmentações mais precisas e representativas conforme discutido por Tan Steinbach e Kumar 2019 Este insight destaca o valor de abordagens multidimensionais na mineração de dados que considerem tanto aspectos quantitativos quanto qualitativos para aprimorar a acurácia dos modelos e sua aplicabilidade prática Adicionalmente a análise demonstrou que mesmo com um conjunto relativamente reduzido e acessível de variáveis é plenamente possível empregar técnicas de mineração de dados acessíveis para gerar insights práticos relevantes e 167 acionáveis para a tomada de decisão estratégica Stone e Woodcock 2014 reforçam 168 Conclusão que a diferenciação da abordagem comercial deve levar em conta o retorno financeiro esperado de cada segmento clusters com alto LTV demandam estratégias de relacionamento consultivo e customizado enquanto grupos com baixo retorno relativo precisam ser tratados com modelos automatizados e de baixo custo garantindo a preservação da rentabilidade e evitando gastos excessivos Outro diferencial relevante da pesquisa foi a incorporação da variável simulada de Desempenho do Cliente que amplia significativamente o potencial evolutivo do modelo em ambientes reais e dinâmicos de Customer Relationship Management CRM Essa variável abre caminho para a inclusão futura de indicadores mais ricos e dinâmicos tais como engajamento churn satisfação do cliente e ciclo de vida fortalecendo o alinhamento do modelo às necessidades de adaptação contínua e responsiva das estratégias de relacionamento conforme orientado por Kotler e Keller 2012 Recomendase portanto a implementação de dashboards interativos e painéis automatizados para o monitoramento em tempo real da evolução dos clusters bem como ciclos periódicos de recalibração e atualização da segmentação a fim de capturar as mudanças comportamentais e perfis emergentes ao longo do tempo Han Kamber Pei 2012 A versatilidade e a escalabilidade da abordagem metodológica também se destacam como pontos fortes deste estudo Embora a aplicação tenha sido realizada em uma base específica do setor de cobrança a estrutura proposta é amplamente replicável e adaptável a diversos segmentos B2B incluindo setores como tecnologia consultorias especializadas e indústrias desde que haja a adequada seleção e ajuste das variáveis de entrada em consonância com a natureza do públicoalvo e os objetivos estratégicos de cada negócio Stone Woodcock 2014 Em conclusão a clusterização desenvolvida e aplicada nesta dissertação apresenta uma metodologia prática replicável e flexível capaz de entregar resultados expressivos em termos de direcionamento estratégico e operacional Ao possibilitar a identificação precisa das contas de maior potencial a redução dos custos de aquisição o aumento do LTV médio e a otimização do funil de vendas o modelo contribui não apenas para ganhos imediatos em eficiência e lucratividade mas também para a construção de uma estratégia de crescimento sustentável pautada na inteligência de dados e nas melhores práticas do marketing B2B Kotler Keller 2012 Tan Steinbach Kumar 2019 169 Conclusão Os resultados obtidos fortalecem tanto a contribuição teórica quanto a aplicabilidade prática do estudo fornecendo às organizações um guia realista orientado por dados para a tomada de decisões mais eficazes competitivas e alinhadas ao cenário corporativo atual cada vez mais orientado por análises preditivas e modelos inteligentes de gestão comercial 170 REFERÊNCIAS BIBLIOGRÁFICAS AFINITI V P A new approach to proportional hazards modeling for estimating customer lifetime value 2022 BARAN R J GALKA R J STRUNK D P CRM the foundations of contemporary marketing strategy Londres Routledge 2013 BAUER J JANNACH D Improved customer lifetime value prediction with sequencetosequence learning and featurebased models ACM Transactions on Knowledge Discovery from Data v 15 n 5 2021 BERGER P D NASR N I Customer lifetime value marketing models and applications Journal of Interactive Marketing v 12 n 1 p 1730 Winter 1998 BREIMAN L Random forests Machine Learning Dordrecht Springer 2001 BURELLI P Predicting customer lifetime value in freetoplay games 2019 CAO Y RUSMEVICHIENTONG P TOPALOGLU H Revenue management under a mixture of independent demand and multinomial logit models Operations Research v 71 n 2 p 603625 2023 CHENG H CHEN Y Classification of the risk levels of heart disease using a hybrid data mining approach In Proceedings of the International Multiconference of Engineers and Computer Scientists v 1 2009 CUMPS B et al Inferring comprehensible business ICT alignment rules Information Management v 46 n 2 p 116124 2009 DOI 101016jim200805005 DAHANA W D MIWA Y MORISADA M Linking lifestyle to customer lifetime value an exploratory study in an online fashion retail market Journal of Business Research v 99 p 319331 2019 DO C B BATZOGLOU S What is the expectation maximization algorithm Nature Biotechnology v 26 n 8 p 897899 2008 DOMINGOS P The master algorithm Basic Books 2015 EKSTRAND M D RIEDL J T KONSTAN J A Collaborative filtering recommender systems Foundations and Trends in HumanComputer Interaction v 4 n 2 p 81173 2010 ESTER M et al A densitybased algorithm for discovering clusters in large spatial databases with noise In Proceedings of the Second International Conference on Knowledge Discovery and Data Mining Portland AAAI Press 1996 p 226231 FARRIS P W et al Marketing metrics the definitive guide to measuring marketing performance Londres Pearson 2020 171 FAYYAD U PIATETSKYSHAPIRO G SMYTH P From data mining to knowledge discovery in databases AI Magazine v 17 n 3 p 3754 1996 FIELD A MILES J FIELD Z Discovering statistics using R 2 ed London Sage 2017 HAIR J F et al Multivariate data analysis 7 ed Upper Saddle River NJ Prentice Hall 2009 HAN J KAMBER M PEI J Data mining concepts and techniques 3 ed Waltham Morgan Kaufmann 2011 HARRIS C R et al Array programming with NumPy Nature v 585 n 7825 p 357362 2020 HÖPPNER S et al Profit driven decision trees for churn prediction European Journal of Operational Research 2018 Disponível em httpswwwelseviercomlocateejor Acesso em 21 jul 2024 HUANG M RUST R T Engaged to a robot The role of AI in service Journal of Service Research v 23 p 97113 2020 HUNTER J D Matplotlib a 2D graphics environment Computing in Science Engineering v 9 n 3 p 9095 2007 JASEK P et al Comparative analysis of selected probabilistic customer lifetime value models in online shopping Journal of Business Economics and Management v 20 n 3 p 398423 2019 KABACOFF R R in action data analysis and graphics with R 3 ed Shelter Island Manning 2021 KANCHANAPOOM K CHONGWATPOL J Integrated customer lifetime value CLV and customer migration model to improve customer segmentation Journal of Marketing Analytics 2022 Disponível em httpslinkspringercomarticle101057s41270022001587 Acesso em 22 jan 2024 KANCHANAPOOM K CHONGWATPOL J Integrated customer lifetime value models to support marketing decisions in the complementary and alternative medicine industry Benchmarking 2023 KELLER K L Strategic brand management building measuring and managing brand equity Londres Pearson 2014 KOTLER P KELLER K L Administração de marketing 12 ed São Paulo Pearson Prentice Hall 2006 KRISHNAMURTHY R DESHPANDE P Data visualization with Python 2 ed Birmingham Packt 2022 172 KUMAR A et al Customer lifetime value prediction using machine learning to forecast CLV and enhance customer relationship management In 7th International Symposium on Multidisciplinary Studies and Innovative Technologies ISMSIT IEEE 2023 KUMAR V Managing customers for profit strategies to increase profits and build loyalty Philadelphia Wharton School Publishing 2018 KUMAR V DIXIT A JAVALGI R G DASS M Relationship marketing in the digital age concepts practices and perspectives Journal of Marketing Management v 36 p 216244 2020 LAROCHELLE H et al Interpretable machine learning decision trees and beyond MIT Press 2022 LI K et al Billionuser customer lifetime value prediction an industrialscale solution from Kuaishou In Proceedings of the International Conference on Information and Knowledge Management Association for Computing Machinery 2022 p 3243 3251 LUNDBERG S M LEE SI A unified approach to interpreting model predictions NeurIPS 2020 MALHOTRA N K Marketing research an applied orientation 5 ed Upper Saddle River NJ Pearson Prentice Hall 2006 MATPLOTLIB Documentação oficial do Matplotlib Disponível em httpsmatplotliborg Acesso em 16 jul 2024 MCDONALD M DUNBAR I Market segmentation how to do it and how to profit from it John Wiley Sons 2012 MCKINNEY W Python for data analysis 3 ed OReilly 2022 MCKINNEY W Data structures for statistical computing in Python In Proceedings of the 9th Python in Science Conference 2010 MINTZBERG H AHLSTRAND B LAMPEL J Safari de estratégia um roteiro pela selva do planejamento estratégico 2 ed Porto Alegre Bookman 2010 MISSINGNO Repositório oficial do Missingno no GitHub Disponível em httpsgithubcomResidentMariomissingno Acesso em 16 jul 2024 MOLNAR C Interpretable machine learning 2 ed 2022 Disponível em httpschristophmgithubiointerpretablemlbook NATIONAL ACADEMIES OF SCIENCES Data science for undergraduates consensus study report Washington The National Academies Press 2021 173 NIJKAMP P Multivariate analysis in practice the application of statistical methods Berlin SpringerVerlag 1999 NUMPY Documentação oficial do NumPy Disponível em httpsnumpyorg Acesso em 16 jul 2024 OLIVEIRA D P R Planejamento estratégico conceitos metodologia e práticas 34 ed São Paulo Atlas 2018 OLNÉN J Customer lifetime value maximizing profitability through customer loyalty Business Insights Press 2022 PAGANO M GAUVREAU K Principles of biostatistics 2 ed Boca Raton CRC Press 2018 PANDAS Documentação oficial do Pandas Disponível em httpspandaspydataorg Acesso em 16 jul 2024 PAYNE A FROW P Strategic customer management integrating relationship marketing and CRM Cambridge Cambridge University Press 2017 PEDREGOSA F et al Scikitlearn machine learning in Python Journal of Machine Learning Research v 12 p 28252830 2011 POLLAK Z Predicting customer lifetime value ecommerce use case 2021 POLLAK Z Deep learning applications in customer lifetime value prediction Data Science Journal v 20 2021 QUINLAN J R Induction of decision trees Machine Learning v 1 n 1 p 81106 1986 REZAEINIA S M RAHMANI R Recommender system based on customer segmentation RSCS Kybernetes v 45 n 6 p 946961 2016 RIEDL J KONSTAN J A HumanComputer Interaction Handbook fundamentals evolving technologies and emerging applications In JACKO J A ed 3 ed Boca Raton CRC Press 2011 RUMELHART D E HINTON G E WILLIAMS R J Learning representations by backpropagating errors Nature v 323 n 6088 p 533536 1986 RUST R T LEMON K N ZEITHAML V A Return on marketing using customer equity to focus marketing strategy Journal of Marketing v 68 n 1 p 109127 2004 SCIKITLEARN Documentação oficial do Scikitlearn Disponível em httpsscikit learnorgstable Acesso em 16 jul 2024 174 SEABORN Documentação oficial do Seaborn Disponível em httpsseabornpydataorg Acesso em 16 jul 2024 STONE M et al SCHEMA information on marketing and customer engagement performance reality versus dreams The Bottom Line 2019 Accepted DOI 101108BL0220190065 SU H et al Crossdomain adaptative learning for online advertisement customer lifetime value prediction 2023 TAN P N STEINBACH M KUMAR V Introduction to data mining 2 ed Harlow Pearson 2019 THOMAS R J Multistage market segmentation an exploration of B2B segment alignment Journal of Business and Industrial Marketing v 31 n 7 p 821834 2016 THOMPSON B Exploratory and confirmatory factor analysis understanding concepts and applications Washington DC American Psychological Association 2004 TIMES HIGHER EDUCATION World university rankings 2023 data science and analytics 2023 Disponível em httpswwwtimeshighereducationcom VANDERPLAS J Python data science handbook essential tools for working with data 1 ed Sebastopol OReilly Media 2016 VERBEKE W MARTENS D BAESENS B Building comprehensible customer churn prediction models with advanced rule induction techniques Expert Systems with Applications v 38 n 3 p 23542364 2011 VERHOEVEN D PESCH T CAO Y Utilizing genetic algorithms for revenue management optimization Journal of Revenue and Pricing Management v 22 n 3 p 245265 2023 WANG X LIU T MIAO J A deep probabilistic model for customer lifetime value prediction 2019 Disponível em httparxivorgabs191207753 WASKOM M et al Missingno a missing data visualization suite 2020 Disponível em httpsgithubcomResidentMariomissingno WASKOM M L et al Seaborn statistical data visualization Journal of Open Source Software v 5 n 51 p 3021 2020 DOI 1021105joss03021 WASSERMAN L All of statistics a concise course in statistical inference 2 ed New York Springer 2020 WICKHAM H GROLEMUND G R for data science Sebastopol OReilly 2017 175 WIN T T BO K S Predicting customer class using customer lifetime value with random forest algorithm In International Conference on Advanced Information Technologies ICAIT IEEE 2020 p 236241 WU C et al Contrastive multiview framework for customer lifetime value prediction Proceedings of the ACM Web Conference p 24002408 2023 XIE Y et al Customer churn prediction using improved balanced random forests Expert Systems with Applications v 120 p 239250 2019 DOI 101016jeswa201811030 ZHANG Z ZHAO Y HUZHANG G Exploit customer lifetime value with memoryless experiments 2022 Disponível em httparxivorgabs220106254 ZUUR A F IENO E N ELPHICK C S A protocol for data exploration to avoid common statistical problems Methods in Ecology and Evolution v 10 n 1 p 170 181 2019 176 ANEXOS pip install pandas numpy matplotlib seaborn scikitlearn Requirement already satisfied pandas in usrlocallibpython311distpackages 222 Requirement already satisfied numpy in usrlocallibpython311distpackages 202 Requirement already satisfied matplotlib in usrlocallibpython311distpackages 3100 Requirement already satisfied seaborn in usrlocallibpython311distpackages 0132 Requirement already satisfied scikitlearn in usrlocallibpython311distpackages 161 Requirement already satisfied pythondateutil282 in usrlocallibpython311distpackages from pandas 290post0 Requirement already satisfied pytz20201 in usrlocallibpython311distpackages from pandas 20252 Requirement already satisfied tzdata20227 in usrlocallibpython311distpackages from pandas 20252 Requirement already satisfied contourpy101 in usrlocallibpython311distpackages from matplotlib 132 Requirement already satisfied cycler010 in usrlocallibpython311distpackages from matplotlib 0121 Requirement already satisfied fonttools4220 in usrlocallibpython311distpackages from matplotlib 4582 Requirement already satisfied kiwisolver131 in usrlocallibpython311distpackages from matplotlib 148 Requirement already satisfied packaging200 in usrlocallibpython311distpackages from matplotlib 242 Requirement already satisfied pillow8 in usrlocallibpython311distpackages from matplotlib 1121 Requirement already satisfied pyparsing231 in usrlocallibpython311distpackages from matplotlib 323 Requirement already satisfied scipy160 in usrlocallibpython311distpackages from scikitlearn 1153 Requirement already satisfied joblib120 in usrlocallibpython311distpackages from scikitlearn 151 Requirement already satisfied threadpoolctl310 in usrlocallibpython311distpackages from scikitlearn 360 Requirement already satisfied six15 in usrlocallibpython311distpackages from pythondateutil282pandas 1170 import pandas as pd import numpy as np import matplotlibpyplot as plt import seaborn as sns from sklearncluster import KMeans from sklearnpreprocessing import StandardScaler from sklearnmetrics import silhouettescore filepaths contentBaseListaLeads55Mvs2xlsx contentcluster0csv contentbaseleadsxlsx contentbaseleadsokxlsx Dicionário para guardar os DataFrames dataframes for path in filepaths if pathendswithxlsx df pdreadexcelpath elif pathendswithcsv df pdreadcsvpath sep tenta sep pois deu erro com else continue dataframespathsplit1 df Verificar quais foram carregados printfArquivos carregados listdataframeskeys Arquivos carregados BaseListaLeads55Mvs2xlsx cluster0csv baseleadsxlsx baseleadsokxlsx Ver resumo de cada DataFrame for name df in dataframesitems printf name printdfinfo printdfhead3 print BaseListaLeads55Mvs2xlsx class pandascoreframeDataFrame RangeIndex 55039 entries 0 to 55038 Data columns total 42 columns Column NonNull Count Dtype 0 55038 55039 nonnull object 1 Unnamed 1 55039 nonnull object 2 Unnamed 2 55039 nonnull object 3 Unnamed 3 55039 nonnull object 4 Unnamed 4 55039 nonnull object 5 Unnamed 5 55039 nonnull object 6 Unnamed 6 55039 nonnull object 7 Unnamed 7 55039 nonnull object 8 R Recorrência 55039 nonnull object 9 Unnamed 9 55039 nonnull object 10 Unnamed 10 55039 nonnull object 11 Unnamed 11 55039 nonnull object 12 Unnamed 12 55039 nonnull object 13 Unnamed 13 55039 nonnull object 14 Unnamed 14 55039 nonnull object 15 Unnamed 15 55039 nonnull object 16 Unnamed 16 55039 nonnull object 17 Unnamed 17 55039 nonnull object 18 Unnamed 18 55039 nonnull object 19 Unnamed 19 55039 nonnull object 20 Unnamed 20 54509 nonnull object 21 Unnamed 21 55039 nonnull object 22 17027 55039 nonnull object 23 3186 55039 nonnull object 24 14310 55039 nonnull object 25 6082 55039 nonnull object 26 Unnamed 26 55039 nonnull object 27 Unnamed 27 55010 nonnull object 28 Unnamed 28 55039 nonnull object 29 Unnamed 29 55039 nonnull object 30 Unnamed 30 55039 nonnull object 31 Unnamed 31 55039 nonnull object 32 Unnamed 32 55039 nonnull object 33 Unnamed 33 55039 nonnull object 34 Unnamed 34 55039 nonnull object 35 Unnamed 35 55033 nonnull object 36 Unnamed 36 55033 nonnull object 37 Unnamed 37 54859 nonnull object 38 Unnamed 38 55039 nonnull object 39 Unnamed 39 9272 nonnull object 40 Unnamed 40 11969 nonnull object 41 Unnamed 41 55039 nonnull object dtypes object42 memory usage 176 MB None 55038 Unnamed 1 Unnamed 2 0 CodEmp CodCNAE CNAEs 1 100000166 4110700 4110700 Incorporação de empreendimentos imob 2 100000172 7112000 7112000 Serviços de engenharia Unnamed 3 Unnamed 4 Unnamed 5 Unnamed 6 0 SegmentoCO SegmentoGL SubsegGL CodGr 1 ENGENHARIACONSTRUÇÃO CONSTRUCAO E PROJETOS INCORPORADORA 0 2 SERVIÇOS SERVICOS ENGENHARIA 0 Unnamed 7 R Recorrência Unnamed 9 0 StatusGr M1 M2 1 0 0 0 2 0 0 0 Unnamed 32 Unnamed 33 0 CNAEs Secundários Cidade 1 41204005223100646200068102036822600 Brasília 2 8020001771100077390997020400731900462023 Sao Bernardo Do Campo Unnamed 34 Unnamed 35 Unnamed 36 Unnamed 37 0 Estado Microrregião Mesoregião QuantFuncionarios 1 DF Brasília Distrito Federal 117 2 SP São Paulo Metropolitana de São Paulo 50 Unnamed 38 Unnamed 39 Unnamed 40 Unnamed 41 0 Natureza Jurídica Exportador Importador 1 1 NaN NaN 2 1 NaN NaN 3 rows x 42 columns cluster0csv class pandascoreframeDataFrame RangeIndex 2799 entries 0 to 2798 Data columns total 25 columns Column NonNull Count Dtype 0 CodEmp 2799 nonnull int64 1 CodCNAE 2799 nonnull int64 2 CNAEs 2799 nonnull object 3 SegmentoCO 2766 nonnull object 4 SegmentoGL 2766 nonnull object 5 SubsegGL 2766 nonnull object 6 CodGr 2766 nonnull float64 7 StatusGr 2766 nonnull object 8 PDPrior 2766 nonnull object 9 FatPres 2766 nonnull float64 10 TitDevs 2766 nonnull float64 11 Porte 2766 nonnull object 12 Situação 2766 nonnull object 13 NíveIAtiv 2766 nonnull object 14 RiscoInad 2766 nonnull object 15 CNAEs Secundários 2766 nonnull object 16 Cidade 2766 nonnull object 17 Estado 2766 nonnull object 18 Microregião 2766 nonnull object 19 Mesoregião 2766 nonnull object 20 QuantFuncionarios 2766 nonnull float64 21 Natureza Jurídica 2766 nonnull float64 22 Exportador 2766 nonnull object 23 Importador 2766 nonnull object 24 cluster 2766 nonnull float64 dtypes float646 int642 object17 memory usage 5468 KB None CNAEs CodEmp CodCNAE 0 100020648 5911199 5911199 Atividades de produção cinematográfi 1 100022630 5920100 5920100 Atividades de gravação de som e de e 2 100060378 4930202 4930202 Transporte rodoviário de carga exce SegmentoCO SegmentoGL SubsegGL CodGr StatusGr PDPrior 0 COMUNICAÇÃO SERVICOS COMUNICACAO 00 0 SI 1 COMUNICAÇÃO SERVICOS COMUNICACAO 00 0 SI 2 LOGISTICATRANSPORTE LOGISTICA TRANSPORTADOR 00 0 SI FatPres CNAEs Secundários 0 224000000 591110259138005920100 1 121250000 464940759111997311400 2 172300000 773909946630007820500773220149230024330404 Cidade Estado Microregião 0 Sao Paulo SP São Paulo 1 Sao Paulo SP São Paulo 2 Sao Joao Da Barra RJ Campos dos Goytacazes Mesoregião QuantFuncionarios Natureza Jurídica Exportador 0 Metropolitana de São Paulo 820 10 Não 1 Metropolitana de São Paulo 570 10 Não 2 Norte Fluminense 510 10 Não Importador cluster 0 Não 00 1 Não 00 2 Não 00 3 rows x 25 columns baseleadsxlsx class pandascoreframeDataFrame RangeIndex 55038 entries 0 to 55037 Data columns total 24 columns Column NonNull Count Dtype 0 CodEmp 55038 nonnull int64 1 CodCNAE 55038 nonnull int64 2 CNAEs 55038 nonnull object 3 SegmentoCO 55038 nonnull object 4 SegmentoGL 55038 nonnull object 5 SubsegGL 55038 nonnull object 6 CodGr 55038 nonnull int64 7 StatusGr 55038 nonnull object 8 PDPrior 55038 nonnull object 9 FatPres 55038 nonnull int64 10 TitDevs 55038 nonnull int64 11 Porte 55038 nonnull object 12 Situação 55038 nonnull object 13 NíveIAtiv 55038 nonnull object 14 RiscoInad 55038 nonnull object 15 CNAEs Secundários 55038 nonnull object 16 Cidade 55038 nonnull object 17 Estado 55038 nonnull object 18 Microregião 55032 nonnull object 19 Mesoregião 55032 nonnull object 20 QuantFuncionarios 54858 nonnull float64 21 Natureza Jurídica 55038 nonnull int64 22 Exportador 9271 nonnull object 23 Importador 11968 nonnull object dtypes float641 int646 object17 memory usage 101 MB None CodEmp CodCNAE CNAEs 0 100000166 4110700 4110700 Incorporação de empreendimentos imob 1 100000172 7112000 7112000 Serviços de engenharia 2 100000424 7311400 7311400 Agências de publicidade SegmentoCO SegmentoGL SubsegGL CodGr 0 ENGENHARIACONSTRUÇÃO CONSTRUCAO E PROJETOS INCORPORADORA 0 1 SERVIÇOS SERVICOS ENGENHARIA 0 2 SERVIÇOS SERVICOS MARKETING 0 StatusGr PDPrior FatPres RiscoInad 0 0 SI 12125000 Muito baixo 1 0 SI 22400000 Muito baixo 2 0 SI 12125000 Muito baixo CNAEs Secundários Cidade 0 41204005223100646200068102036822600 Brasilia 1 8020001771100077390997020400731900462023 Sao Bernardo Do Campo 2 Sao Paulo Estado Microregião Mesoregião QuantFuncionarios 0 DF Brasília Distrito Federal 1170 1 SP São Paulo Metropolitana de São Paulo 500 2 SP São Paulo Metropolitana de São Paulo 760 Natureza Jurídica Exportador Importador 0 1 NaN NaN 1 1 NaN NaN 2 1 NaN NaN 3 rows x 24 columns baseleadsokxlsx class pandascoreframeDataFrame RangeIndex 1017 entries 0 to 1016 Data columns total 25 columns Column NonNull Count Dtype 0 CodEmp 1017 nonnull int64 1 CodCNAE 1017 nonnull int64 2 CNAEs 1017 nonnull object 3 SegmentoCO 1017 nonnull object 4 SegmentoGL 1017 nonnull object 5 SubsegGL 1017 nonnull object 6 CodGr 1017 nonnull int64 7 StatusGr 1017 nonnull object 8 Target 1017 nonnull int64 9 PDPrior 1017 nonnull object 10 FatPres 1017 nonnull int64 11 TitDevs 1017 nonnull int64 12 Porte 1017 nonnull object 13 Situação 1017 nonnull object 14 NívelAtiv 1017 nonnull object 15 RiscoInad 1017 nonnull object 16 CNAEs Secundários 1017 nonnull object 17 Cidade 1017 nonnull object 18 Estado 1017 nonnull object 19 Microrregião 1017 nonnull object 20 Mesorregião 1017 nonnull object 21 QuantFuncionarios 1016 nonnull float64 22 Natureza Jurídica 1017 nonnull int64 23 Exportador 407 nonnull object 24 Importador 493 nonnull object dtypes float641 int647 object17 memory usage 1988 KB None CodEmp CodCNAE CNAEs 0 100026910 1099699 1099699 Fabricação de outros produtos alimen 1 100028986 4329103 4329103 Instalação manutenção e reparação d 2 100056633 1414200 1414200 Fabricação de acessórios do vestuári SegmentoCO SegmentoGL SubsegGL CodGr 0 ALIMENTOSBEBIDAS ALIMENTOSBEBIDAS MANUFATURA 680 1 ENGENHARIACONSTRUÇÃO CONSTRUCAO E PROJETOS INSTALACAO 29 2 BENS DE CONSUMO TEXTIL E VESTUARIO MANUFATURA 1432 StatusGr Target PDPrior RiscoInad 0 INATIVO CHURN 0 2023 Baixo 1 ATIVO 1 2023 Muito baixo 2 INATIVO 0 2023 Muito baixo CNAEs Secundários Cidade Estado 18 Estado 1017 nonnull object 19 Microrregião 1017 nonnull object 20 Mesorregião 1017 nonnull object 21 QuantFuncionarios 1016 nonnull float64 22 Natureza Jurídica 1017 nonnull int64 23 Exportador 407 nonnull object 24 Importador 493 nonnull object dtypes float641 int647 object17 memory usage 1988 KB None CodEmp CodCNAE CNAEs 0 100026910 1099699 1099699 Fabricação de outros produtos alimen 1 100028986 4329103 4329103 Instalação manutenção e reparação d 2 100056633 1414200 1414200 Fabricação de acessórios do vestuári 3 100074569 1122403 1122403 Fabricação de refrescos xaropes e p 4 100080671 1042200 1042200 Fabricação de óleos vegetais refinad SegmentoCO SegmentoGL SubsegGL CodGr 0 ALIMENTOSBEBIDAS ALIMENTOSBEBIDAS MANUFATURA 680 1 ENGENHARIACONSTRUÇÃO CONSTRUCAO E PROJETOS INSTALACAO 29 2 BENS DE CONSUMO TEXTIL E VESTUARIO MANUFATURA 1432 3 ALIMENTOSBEBIDAS ALIMENTOSBEBIDAS MANUFATURA 1503 4 ALIMENTOSBEBIDAS ALIMENTOSBEBIDAS MANUFATURA 1124 StatusGr Target PDPrior RiscoInad 0 INATIVO CHURN 0 2023 Baixo 1 ATIVO 1 2023 Muito baixo 2 INATIVO 0 2023 Muito baixo 3 ATIVO 1 2023 Muito baixo 4 ATIVO 1 2023 Muito baixo CNAEs Secundários Cidade Estado 0 4693100109610046184018292000469150046923 Sorocaba SP 1 Sao Paulo 2 3299005174190218130991731100749019946427 Blumenau SC 3 1033302109969911224021122499 Rio De Janeiro RJ 4 1415011041400106430010651011065102106510 Itumbiara GO Microrregião Mesorregião QuantFuncionarios 0 Sorocaba Macro Metropolitana Paulista 2760 1 São Paulo Metropolitana de São Paulo 2710 2 Blumenau Vale do Itajaí 7670 3 Rio de Janeiro Metropolitana do Rio de Janeiro 2630 4 Meia Ponte Sul Goiano 2210 Natureza Jurídica Exportador Importador 0 1 NaN Sim 1 1 NaN NaN 2 1 Sim Sim 3 1 Sim Sim 4 1 Sim Sim 5 rows x 25 columns printdfcolumnstolist CodEmp CodCNAE CNAEs SegmentoCO SegmentoGL SubsegGL CodGr StatusGr Target PDPrior FatPres TitDevs Porte Situação NívelAtiv RiscoInad CNAEs Secundários Cidade Estado Microrregião Mesorregião QuantFuncionarios Natureza Jurídica Exportador Importador Escolher features numéricas principais features FatPres QuantFuncionarios ajuste conforme os nomes exatos Remover linhas com valores ausentes nessas colunas dfclean dfdropnasubsetfeatures printfLinhas após remoção de nulos dfcleanshape Linhas após remoção de nulos 1016 25 Padronizar os dados scaler StandardScaler Xscaled scalerfittransformdfcleanfeatures Método do cotovelo inertia K range1 10 for k in K kmeans KMeansnclustersk randomstate42 kmeansfitXscaled inertiaappendkmeansinertia pltplotK inertia bx pltxlabelNúmero de Clusters pltylabelInertia plttitleMétodo do Cotovelo pltshow Silhouette Score opcional for k in range2 10 kmeans KMeansnclustersk randomstate42 labels kmeansfitpredictXscaled score silhouettescoreXscaled labels printfSilhouette Score para kk score4f Silhouette Score para k2 09641 Silhouette Score para k3 06453 Silhouette Score para k4 07280 Silhouette Score para k5 07616 Silhouette Score para k6 07602 Silhouette Score para k7 07618 Silhouette Score para k8 07721 Silhouette Score para k9 06502 Por exemplo 3 clusters kmeans KMeansnclusters3 randomstate42 dfcleanCluster kmeansfitpredictXscaled printdfcleanClustervaluecounts Cluster 2 546 0 468 1 2 Name count dtype int64 ipythoninput1511134421593 SettingWithCopyWarning A value is trying to be set on a copy of a slice from a DataFrame Try using locrowindexercolindexer value instead See the caveats in the documentation httpspandaspydataorgpandasdocsstableuserguideindexinghtmlreturningaviewversusacopy dfcleanCluster kmeansfitpredictXscaled snsscatterplot xdfcleanFatPres ydfcleanQuantFuncionarios huedfcleanCluster paletteSet1 plttitleClusters pltshow Se quiser carregar cluster0csv dfoldcluster dataframescluster0csv Ver exemplo de comparação printdfoldclusterhead CodEmp CodCNAE CNAEs 0 100020648 5911199 5911199 Atividades de produção cinematográfi 1 100022630 5920100 5920100 Atividades de gravação de som e de e 2 100060378 4930202 4930202 Transporte rodoviário de carga exce 3 100075032 7112000 7112000 Serviços de engenharia 4 100081993 729404 0729404 Extração de minérios de cobre chumb CodGr SegmentoCO SegmentoGL SubsegGL 0 COMUNICAÇÃO SERVICOS COMUNICACAO 00 1 COMUNICAÇÃO SERVIÇOS COMUNICACAO 00 2 LOGISTICATRANSPORTE LOGISTICA TRANSPORTADOR 00 3 SERVIÇOS SERVIÇOS ENGENHARIA 00 4 MINERADORA MANUFATURA EXTRATIVISTA E BENEFICIAMENTO 00 StatusGr PDPrior FatPres 0 0 SI 224000000 1 0 SI 121250000 2 0 SI 172300000 3 0 SI 121250000 4 0 SI 172300000 CNAEs Secundários Cidade 0 591110259138005920100 Sao Paulo 1 464940759111997311400 Sao Paulo 2 773909946630007820500773220149230024330404 Sao Joao Da Barra 3 Rio De Janeiro 4 990402 Tunas Do Parana Estado Microrregião Mesorregião 0 SP São Paulo Metropolitana de São Paulo 1 SP São Paulo Metropolitana de São Paulo 2 RJ Campos dos Goytacazes Norte Fluminense 3 RJ Rio de Janeiro Metropolitana do Rio de Janeiro 4 PR Curitiba Metropolitana de Curitiba QuantFuncionarios Natureza Jurídica Exportador Importador cluster 0 820 10 Não Não 00 1 570 10 Não Não 00 2 510 10 Não Não 00 3 190 10 Não Não 00 4 930 10 Não Não 00 5 rows x 25 columns Adicionar coluna log do faturamento import numpy as np dfcleanlogFatPres nplog1pdfcleanFatPres log1 x evita log0 Verificar nova feature dfcleanFatPres logFatPreshead ipythoninput1836515223294 SettingWithCopyWarning A value is trying to be set on a copy of a slice from a DataFrame Try using locrowindexercolindexer value instead See the caveats in the documentation httpspandaspydataorgpandasdocsstableuserguideindexinghtmlreturningaviewversusacopy dfcleanlogFatPres nplog1pdfcleanFatPres log1 x evita log0 summary name dfcleanFatPres logFatPres rows 5 fields column FatPres properties dtype number std 744129731 min 56700000 max 1500000000 numuniquevalues 3 samples 236000000 1500000000 56700000 semantictype description column logFatPres properties dtype number std 14913081035777738 min 17853284786334665 max 2112873094572124 numuniquevalues 3 samples 19279342367227173 2112873094572124 17853284786334665 semantictype description typedataframe features logFatPres QuantFuncionarios Remover nulos deve estar ok Xscaled scalerfittransformdfcleanfeatures Elbow Method com logFatPres inertia K range1 10 for k in K kmeans KMeansnclustersk randomstate42 kmeansfitXscaled inertiaappendkmeansinertia pltplotK inertia bx pltxlabelNúmero de Clusters pltylabelInertia plttitleMétodo do Cotovelo logFatPres pltshow Silhouette Score for k in range2 10 kmeans KMeansnclustersk randomstate42 labels kmeansfitpredictXscaled score silhouettescoreXscaled labels printfSilhouette Score para kk score4f Método do Cotovelo logFatPres Silhouette Score para k2 04400 Silhouette Score para k3 04714 Silhouette Score para k4 04070 Silhouette Score para k5 04442 Silhouette Score para k6 04253 Silhouette Score para k7 04320 Silhouette Score para k8 04527 Silhouette Score para k9 04677 Novo clustering usando logFatPres kmeans KMeansnclusters5 randomstate42 dfcleanCluster kmeansfitpredictXscaled ipythoninput2133513388583 SettingWithCopyWarning A value is trying to be set on a copy of a slice from a DataFrame Try using locrowindexercolindexer value instead See the caveats in the documentation httpspandaspydataorgpandasdocsstableuserguideindexinghtmlreturningaviewversusacopy dfcleanCluster kmeansfitpredictXscaled snsscatterplot xdfcleanlogFatPres ydfcleanQuantFuncionarios huedfcleanCluster paletteSet1 plttitleClusters logFatPres pltshow Ver correlação entre variáveis numéricas corr dfcleanFatPres QuantFuncionarioscorr printcorr snsheatmapcorr annotTrue cmapcoolwarm plttitleMatriz de Correlação pltshow FatPres QuantFuncionarios FatPres 1000000 0043068 QuantFuncionarios 0043068 1000000 Matriz de Correlação Supondo que LTV seja proporcional ao faturamento simplificação dfcleanLTV dfcleanFatPres 12 exemplo supõe que LTV 120 do faturamento Simular um CAC aleatório dentro de uma faixa plausível nprandomseed42 dfcleanCAC nprandomrandint1000 5000 sizelendfclean Ver exemplo printdfcleanFatPres LTV CAChead FatPres LTV CAC 0 236000000 2832000e08 4174 1 150000000 1800000e09 4507 2 56700000 6804000e07 1860 3 150000000 1800000e09 2294 4 150000000 1800000e09 2130 ipythoninput2424280727462 SettingWithCopyWarning A value is trying to be set on a copy of a slice from a DataFrame Try using locrowindexercolindexer value instead See the caveats in the documentation httpspandaspydataorgpandasdocsstableuserguideindexinghtmlreturningaviewversusacopy dfcleanLTV dfcleanFatPres 12 exemplo supõe que LTV 120 do faturamento ipythoninput2424280727466 SettingWithCopyWarning A value is trying to be set on a copy of a slice from a DataFrame Try using locrowindexercolindexer value instead See the caveats in the documentation httpspandaspydataorgpandasdocsstableuserguideindexinghtmlreturningaviewversusacopy dfcleanCAC nprandomrandint1000 5000 sizelendfclean Agrupar por cluster clustersummary dfcleangroupbyClusteragg FatPres mean LTV mean CAC mean QuantFuncionarios mean resetindex printclustersummary Cluster FatPres LTV CAC QuantFuncionarios 0 0 6302044e09 7562453e09 3078437037 232955556 1 1 3461042e07 4153250e07 3050599424 83288184 2 2 3383904e07 4060685e07 2882470199 283827815 3 3 1562812e08 1875374e08 2813560000 1082160000 4 4 1962031e08 2354437e08 3059902235 203025140 snsscatterplot dataclustersummary xCAC yLTV hueCluster paletteSet1 s100 plttitleCAC vs LTV por Cluster pltshow CAC vs LTV por Cluster Cluster 0 1 2 3 4 LTV 7 6 5 4 3 2 1 0 2850 2890 2950 3000 3050 CAC dfcleanDesempenhoCliente nprandomrandint1 10 sizelendfclean Exemplo criar coluna de pontuação de desempenho simulada nprandomseed42 dfcleanDesempenhoCliente nprandomrandint1 10 sizelendfclean printdfcleanFatPres QuantFuncionarios DesempenhoClientehead FatPres QuantFuncionarios DesempenhoCliente 0 2360000000 2760 7 1 1500000000 2710 4 2 567000000 7670 8 3 1500000000 2630 5 4 1500000000 2210 7 ipythoninput2716159578383 SettingWithCopyWarning A value is trying to be set on a copy of a slice from a DataFrame Try using locrowindexercolindexer value instead See the caveats in the documentation httpspandaspydataorgpandasdocsstableuserguideindexinghtmlreturningaviewversusacopy