Texto de pré-visualização
Briefing Encontrar uma problemática da vida real que possa ser solucionada através de análise de dados e machine learning A ideia do projeto é explicar e justificar a relevância do uso de dados para encontrar a solução Você irá Dissertar sobre o problema Levantar as fontes de dados públicas e não confidenciais para a coleta de informações Efetuar a análise exploratória de dados levantando os principais pontos relevantes para a solução do problema Construir um aprendizado de máquina ou modelo estatístico e avaliar através de técnicas de modelagem Apresentar uma visualização de dados com os resultados obtidos Nos próximos módulos você vai construir o conhecimento necessário para desenvolver esse projeto Análise Preditiva de Churn de Clientes em Serviços de Assinatura 1 Descrição do Problema A evasão de clientes ou churn é um dos desafios mais significativos para empresas que operam com um modelo de receita recorrente como serviços de streaming SaaS Software as a Service telecomunicações e academias O churn representa a taxa na qual os clientes cancelam suas assinaturas em um determinado período Um alto índice de churn impacta diretamente a receita a lucratividade e a sustentabilidade do negócio Além disso o custo de adquirir um novo cliente Custo de Aquisição de Cliente CAC é quase sempre significativamente maior do que o custo de reter um cliente existente 2 Relevância e Justificativa do Uso de Dados A abordagem tradicional para combater o churn é reativa ou seja a empresa só age depois que o cliente já cancelou o serviço Uma abordagem baseada em análise de dados e machine learning transforma essa estratégia em uma ação proativa Ao analisar o comportamento histórico dos clientes tanto dos que permaneceram quanto dos que saíram é possível identificar padrões e sinais sutis que precedem o cancelamento Com um modelo preditivo a empresa pode Identificar clientes em risco O modelo pode gerar uma pontuação de risco de churn para cada cliente permitindo que a equipe de retenção foque seus esforços nos casos mais críticos Personalizar intervenções Ao entender por que um cliente está em risco ex baixo uso do serviço problemas com o suporte faturas em atraso a empresa pode oferecer soluções personalizadas como um desconto um treinamento sobre o produto ou um contato proativo do suporte técnico Otimizar recursos Em vez de aplicar estratégias de retenção em massa que podem ser caras e ineficientes a empresa direciona seus recursos para os clientes que mais precisam de atenção Portanto o uso de dados não apenas ajuda a prever o churn mas também agrega informações importantes valiosos para aprimorar o produto o atendimento ao cliente e as estratégias de marketing criando um ciclo virtuoso de melhoria contínua e retenção de clientes 3 Levantamento de Fontes de Dados Públicas e Não Confidenciais Para este projeto utilizaremos um conjunto de dados público e anônimo ideal para modelagem de churn Uma fonte excelente e amplamente utilizada é o dataset Telco Customer Churn que pode ser encontrado em plataformas como Kaggle É um repositório popular para cientistas de dados e este dataset está disponível com vasta documentação e análises da comunidade IBM Watson Sample Datasets A IBM disponibiliza este dataset como um recurso para aprendizado e desenvolvimento de modelos Este conjunto de dados normalmente inclui as seguintes informações todas anônimas Dados Demográficos do Cliente o gender Gênero MasculinoFeminino o SeniorCitizen Se o cliente é idoso 1 0 o Partner Se o cliente tem um parceiro Sim Não o Dependents Se o cliente tem dependentes Sim Não Dados da Conta do Cliente o tenure Número de meses que o cliente permaneceu na empresa o Contract O tipo de contrato do cliente Mensal Anual Dois anos o PaperlessBilling Se o cliente tem faturamento eletrônico Sim Não o PaymentMethod A forma de pagamento do cliente o MonthlyCharges A cobrança mensal o TotalCharges As cobranças totais Serviços que o Cliente Assinou o PhoneService MultipleLines InternetService OnlineSecurity OnlineBackup DeviceProtection TechSupport StreamingTV StreamingMovies Variável Alvo o Churn Se o cliente cancelou o serviço Sim Não Esta é a variável que queremos prever 4 Análise Exploratória de Dados EDA A EDA nos ajuda a entender as características dos dados e a extrair os primeiros elementos interpretáveis Principais Pontos Relevantes para a Solução a Relação entre Contrato e Churn o Insight Esperado Clientes com contratos mensais têm uma taxa de churn muito maior do que aqueles com contratos anuais ou de dois anos Isso ocorre porque contratos de longo prazo criam um maior compromisso o Ação A empresa pode criar campanhas para incentivar a migração de clientes do plano mensal para o anual b Impacto do Tempo de Permanência Tenure o Insight Esperado A taxa de churn é altíssima nos primeiros meses e diminui drasticamente à medida que o cliente permanece mais tempo com a empresa Clientes mais novos são mais propensos a cancelar o Ação Implementar um programa de onboarding mais robusto para novos clientes e oferecer suporte intensificado nos primeiros meses c Influência de Serviços Adicionais o Insight Esperado Clientes que não assinam serviços de proteção como OnlineSecurity ou TechSupport tendem a ter um churn maior Isso sugere que clientes que se sentem desprotegidos ou sem suporte são mais propensos a sair o Ação Oferecer pacotes promocionais que incluam esses serviços de valor agregado d Relação entre Cobranças Mensais e Churn o Insight Esperado Pode haver uma tendência de churn mais alto em faixas de preço específicas Clientes que pagam muito caro por poucos serviços podem ser um grupo de risco o Ação Revisar a estrutura de preços e garantir que os pacotes ofereçam um bom custobenefício 5 Construção do Modelo Estatístico O objetivo do projeto é construir um modelo de classificação binária para prever se um cliente irá cancelar Churn Sim ou não Churn Não Modelo Escolhido Gradient Boosting usando XGBoost ou LightGBM Justificativa Modelos de Gradient Boosting são conhecidos por sua alta performance em dados tabulares como o nosso Eles constroem árvores de decisão de forma sequencial onde cada nova árvore corrige os erros da anterior resultando em um modelo altamente preciso e robusto Técnicas de Modelagem etapas a serem cumpridas 1 Préprocessamento dos Dados o Limpeza Converter a coluna TotalCharges para numérica pode conter espaços e tratar valores ausentes se houver o Codificação de Variáveis Categóricas Transformar variáveis como gender Contract PaymentMethod em formato numérico usando a técnica de OneHot Encoding o Separação dos Dados Dividir o dataset em um conjunto de treino geralmente 80 e um conjunto de teste 20 para avaliar a performance do modelo em dados não vistos 2 Treinamento do Modelo o Instanciar o classificador XGBClassifier o Treinar o modelo usando o conjunto de treino Xtrain ytrain 3 Avaliação do Modelo o Fazer previsões no conjunto de teste Xtest o Utilizar métricas de avaliação apropriadas para um problema de classificação desbalanceado geralmente há menos clientes que cancelam do que os que ficam Matriz de Confusão Para visualizar os acertos e erros Verdadeiros Positivos Falsos Positivos Verdadeiros Negativos Falsos Negativos Acurácia Percentual de previsões corretas pode ser enganosa em dados desbalanceados Precisão Precision Dos clientes que o modelo previu como churn quantos realmente cancelaram Importante para não desperdiçar recursos com clientes que não iriam cancelar Recall Revocação Dos clientes que realmente cancelaram quantos o modelo conseguiu identificar É métrica essencial pois nosso objetivo é encontrar o máximo possível de clientes em risco AUCROC Uma medida agregada da performance do modelo em diferentes limiares de classificação Um valor próximo de 10 indica um excelente modelo 4 Interpretação do Modelo o Analisar a importância das features feature importance gerada pelo modelo Isso nos mostrará quais variáveis ex Contract tenure OnlineSecurity são as mais influentes na previsão do churn validando e complementando os achados da análise exploratória 6 Visualização de Dados via MATLAB A seguir apresentamse os resultados em MATLAB das visões de análise e dos resultados do modelo a Gráfico de Barras Taxa de Churn por Tipo de Contrato 1 2 3 Tipo de Contrato 0 20 40 60 80 100 Taxa de Churn Taxa de Churn por Tipo de Contrato 818 00 00 b Histograma Distribuição do Tempo de Permanência Tenure para Clientes Churn vs NãoChurn 0 10 20 30 40 50 60 70 80 Tempo de Permanência Meses 0 005 01 015 02 025 03 035 04 045 Proporção de Clientes Distribuição do Tempo de Permanência Tenure por Churn Churn Sim Churn Não c Matriz de Confusão do Modelo Preditivo Matriz de Confusão do Modelo de Churn 4 1 1 4 Não Churn 0 Churn 1 Classe Prevista Modelo Não Churn 0 Churn 1 Classe Verdadeira Real 1 15 2 25 3 35 4 d Gráfico de Importância das Features 0 005 01 015 02 025 03 035 04 045 Importância Relativa 1 2 3 4 5 6 Feature Principais Fatores Preditivos de Churn
Texto de pré-visualização
Briefing Encontrar uma problemática da vida real que possa ser solucionada através de análise de dados e machine learning A ideia do projeto é explicar e justificar a relevância do uso de dados para encontrar a solução Você irá Dissertar sobre o problema Levantar as fontes de dados públicas e não confidenciais para a coleta de informações Efetuar a análise exploratória de dados levantando os principais pontos relevantes para a solução do problema Construir um aprendizado de máquina ou modelo estatístico e avaliar através de técnicas de modelagem Apresentar uma visualização de dados com os resultados obtidos Nos próximos módulos você vai construir o conhecimento necessário para desenvolver esse projeto Análise Preditiva de Churn de Clientes em Serviços de Assinatura 1 Descrição do Problema A evasão de clientes ou churn é um dos desafios mais significativos para empresas que operam com um modelo de receita recorrente como serviços de streaming SaaS Software as a Service telecomunicações e academias O churn representa a taxa na qual os clientes cancelam suas assinaturas em um determinado período Um alto índice de churn impacta diretamente a receita a lucratividade e a sustentabilidade do negócio Além disso o custo de adquirir um novo cliente Custo de Aquisição de Cliente CAC é quase sempre significativamente maior do que o custo de reter um cliente existente 2 Relevância e Justificativa do Uso de Dados A abordagem tradicional para combater o churn é reativa ou seja a empresa só age depois que o cliente já cancelou o serviço Uma abordagem baseada em análise de dados e machine learning transforma essa estratégia em uma ação proativa Ao analisar o comportamento histórico dos clientes tanto dos que permaneceram quanto dos que saíram é possível identificar padrões e sinais sutis que precedem o cancelamento Com um modelo preditivo a empresa pode Identificar clientes em risco O modelo pode gerar uma pontuação de risco de churn para cada cliente permitindo que a equipe de retenção foque seus esforços nos casos mais críticos Personalizar intervenções Ao entender por que um cliente está em risco ex baixo uso do serviço problemas com o suporte faturas em atraso a empresa pode oferecer soluções personalizadas como um desconto um treinamento sobre o produto ou um contato proativo do suporte técnico Otimizar recursos Em vez de aplicar estratégias de retenção em massa que podem ser caras e ineficientes a empresa direciona seus recursos para os clientes que mais precisam de atenção Portanto o uso de dados não apenas ajuda a prever o churn mas também agrega informações importantes valiosos para aprimorar o produto o atendimento ao cliente e as estratégias de marketing criando um ciclo virtuoso de melhoria contínua e retenção de clientes 3 Levantamento de Fontes de Dados Públicas e Não Confidenciais Para este projeto utilizaremos um conjunto de dados público e anônimo ideal para modelagem de churn Uma fonte excelente e amplamente utilizada é o dataset Telco Customer Churn que pode ser encontrado em plataformas como Kaggle É um repositório popular para cientistas de dados e este dataset está disponível com vasta documentação e análises da comunidade IBM Watson Sample Datasets A IBM disponibiliza este dataset como um recurso para aprendizado e desenvolvimento de modelos Este conjunto de dados normalmente inclui as seguintes informações todas anônimas Dados Demográficos do Cliente o gender Gênero MasculinoFeminino o SeniorCitizen Se o cliente é idoso 1 0 o Partner Se o cliente tem um parceiro Sim Não o Dependents Se o cliente tem dependentes Sim Não Dados da Conta do Cliente o tenure Número de meses que o cliente permaneceu na empresa o Contract O tipo de contrato do cliente Mensal Anual Dois anos o PaperlessBilling Se o cliente tem faturamento eletrônico Sim Não o PaymentMethod A forma de pagamento do cliente o MonthlyCharges A cobrança mensal o TotalCharges As cobranças totais Serviços que o Cliente Assinou o PhoneService MultipleLines InternetService OnlineSecurity OnlineBackup DeviceProtection TechSupport StreamingTV StreamingMovies Variável Alvo o Churn Se o cliente cancelou o serviço Sim Não Esta é a variável que queremos prever 4 Análise Exploratória de Dados EDA A EDA nos ajuda a entender as características dos dados e a extrair os primeiros elementos interpretáveis Principais Pontos Relevantes para a Solução a Relação entre Contrato e Churn o Insight Esperado Clientes com contratos mensais têm uma taxa de churn muito maior do que aqueles com contratos anuais ou de dois anos Isso ocorre porque contratos de longo prazo criam um maior compromisso o Ação A empresa pode criar campanhas para incentivar a migração de clientes do plano mensal para o anual b Impacto do Tempo de Permanência Tenure o Insight Esperado A taxa de churn é altíssima nos primeiros meses e diminui drasticamente à medida que o cliente permanece mais tempo com a empresa Clientes mais novos são mais propensos a cancelar o Ação Implementar um programa de onboarding mais robusto para novos clientes e oferecer suporte intensificado nos primeiros meses c Influência de Serviços Adicionais o Insight Esperado Clientes que não assinam serviços de proteção como OnlineSecurity ou TechSupport tendem a ter um churn maior Isso sugere que clientes que se sentem desprotegidos ou sem suporte são mais propensos a sair o Ação Oferecer pacotes promocionais que incluam esses serviços de valor agregado d Relação entre Cobranças Mensais e Churn o Insight Esperado Pode haver uma tendência de churn mais alto em faixas de preço específicas Clientes que pagam muito caro por poucos serviços podem ser um grupo de risco o Ação Revisar a estrutura de preços e garantir que os pacotes ofereçam um bom custobenefício 5 Construção do Modelo Estatístico O objetivo do projeto é construir um modelo de classificação binária para prever se um cliente irá cancelar Churn Sim ou não Churn Não Modelo Escolhido Gradient Boosting usando XGBoost ou LightGBM Justificativa Modelos de Gradient Boosting são conhecidos por sua alta performance em dados tabulares como o nosso Eles constroem árvores de decisão de forma sequencial onde cada nova árvore corrige os erros da anterior resultando em um modelo altamente preciso e robusto Técnicas de Modelagem etapas a serem cumpridas 1 Préprocessamento dos Dados o Limpeza Converter a coluna TotalCharges para numérica pode conter espaços e tratar valores ausentes se houver o Codificação de Variáveis Categóricas Transformar variáveis como gender Contract PaymentMethod em formato numérico usando a técnica de OneHot Encoding o Separação dos Dados Dividir o dataset em um conjunto de treino geralmente 80 e um conjunto de teste 20 para avaliar a performance do modelo em dados não vistos 2 Treinamento do Modelo o Instanciar o classificador XGBClassifier o Treinar o modelo usando o conjunto de treino Xtrain ytrain 3 Avaliação do Modelo o Fazer previsões no conjunto de teste Xtest o Utilizar métricas de avaliação apropriadas para um problema de classificação desbalanceado geralmente há menos clientes que cancelam do que os que ficam Matriz de Confusão Para visualizar os acertos e erros Verdadeiros Positivos Falsos Positivos Verdadeiros Negativos Falsos Negativos Acurácia Percentual de previsões corretas pode ser enganosa em dados desbalanceados Precisão Precision Dos clientes que o modelo previu como churn quantos realmente cancelaram Importante para não desperdiçar recursos com clientes que não iriam cancelar Recall Revocação Dos clientes que realmente cancelaram quantos o modelo conseguiu identificar É métrica essencial pois nosso objetivo é encontrar o máximo possível de clientes em risco AUCROC Uma medida agregada da performance do modelo em diferentes limiares de classificação Um valor próximo de 10 indica um excelente modelo 4 Interpretação do Modelo o Analisar a importância das features feature importance gerada pelo modelo Isso nos mostrará quais variáveis ex Contract tenure OnlineSecurity são as mais influentes na previsão do churn validando e complementando os achados da análise exploratória 6 Visualização de Dados via MATLAB A seguir apresentamse os resultados em MATLAB das visões de análise e dos resultados do modelo a Gráfico de Barras Taxa de Churn por Tipo de Contrato 1 2 3 Tipo de Contrato 0 20 40 60 80 100 Taxa de Churn Taxa de Churn por Tipo de Contrato 818 00 00 b Histograma Distribuição do Tempo de Permanência Tenure para Clientes Churn vs NãoChurn 0 10 20 30 40 50 60 70 80 Tempo de Permanência Meses 0 005 01 015 02 025 03 035 04 045 Proporção de Clientes Distribuição do Tempo de Permanência Tenure por Churn Churn Sim Churn Não c Matriz de Confusão do Modelo Preditivo Matriz de Confusão do Modelo de Churn 4 1 1 4 Não Churn 0 Churn 1 Classe Prevista Modelo Não Churn 0 Churn 1 Classe Verdadeira Real 1 15 2 25 3 35 4 d Gráfico de Importância das Features 0 005 01 015 02 025 03 035 04 045 Importância Relativa 1 2 3 4 5 6 Feature Principais Fatores Preditivos de Churn