19
Banco de Dados
PUC
5
Banco de Dados
PUC
2
Banco de Dados
PUC
26
Banco de Dados
PUC
3
Banco de Dados
PUC
4
Banco de Dados
PUC
89
Banco de Dados
PUC
5
Banco de Dados
PUC
91
Banco de Dados
PUC
Texto de pré-visualização
Template para entrega do projeto da disciplina Big Data Datascience e Analytics Fase 2 Nome do estudante Rafael Chaves Barroso Desenvolva um processo de ciência de dados no JASP cobrindo os elementos a seguir Problema de Ciência de dados Qual o problema de ciência de dados vai ser resolvida e a justificativa da resposta Intentase prosseguir com o problema que aborda uma pesquisa realizada com os clientes de dois restaurantes em São Paulo Clientes 1400 dicionário de dados e conjunto de dados disponíveis em anexo Um dos restaurantes é o Samouel American Foods especializado em comida norte americana O outro é o Giino Casa de massas um restaurante italiano localizado a cerca de uma quadra de distância do primeiro Ambos os restaurantes servem uma clientela seleta para almoço e jantar Nesse contexto foi realizada uma série de entrevistas com os clientes no momento que estes saíam dos restaurantes Chegouse a um total de 1600 entrevistas mas 20 delas não apresentavam todos os dados Buscase solucionar o problema de modo a indicar a melhor escolha ao freguês de modo a maximizar a demanda dos dois restaurantes Campus Central Av Ipiranga 6681 CEP 90619900 Porto Alegre RS Brasil Fone 51 33203503 Email relacionamentogradonlinepucrsbr wwwonlinepucrsbr Técnicas utilizadas para solucionar o problema Além de análises descritivas de dados em termos do levantamento de estatísticas descritivas como medidas inferenciais e de dispersão podese fazer uso das seguintes técnicas de Aprendizado de Máquina Boosting Classification Decision Tree e Random Forest Classification Exploração dos dados Sobre cada coluna das 22 do conjunto de dados para cada coluna Qual o tipo de dados NominalOrdinalNuméricoData eou hora Os dados nas colunas de dados são nominais ou ordinais em maioria Em poucos casos são numéricos Quais são os valores considerados válidos São válidos todos as valores apresentados no JASP sendo 1400 por coluna Quantos valores distintos aparecem na coluna Qual o menor e o maior valor e qual a moda Os valores da coluna são numéricos Qual a média e qual o desviopadrão Qual a mediana Levantamse os valores solicitados na tabela anexa school sex age address famsize Pstatus Medu Fedu Mjob Fjob reason guardian traveltime studytime Moda ND ND 16 ND ND ND 4 2 ND ND ND ND 1 2 Média DIV0 DIV0 166962 DIV0 DIV0 DIV0 2749367 2521519 DIV0 DIV0 DIV0 DIV0 1448101 2035443 Desvio DIV0 DIV0 1274426 DIV0 DIV0 DIV0 1093349 1086822 DIV0 DIV0 DIV0 DIV0 0696621 0838177 Campus Central Av Ipiranga 6681 CEP 90619900 Porto Alegre RS Brasil Fone 51 33203503 Email relacionamentogradonlinepucrsbr wwwonlinepucrsbr No Excel Mínimo 3 1 1 3 1 1 1 1 3 2 1 1 3 3 3 1 1 0 1 1 0 0 Máximo 7 7 7 7 7 7 7 6 7 6 5 5 7 7 7 3 3 1 5 5 1 1 Valores distintos 5 7 7 5 7 7 7 6 5 5 5 5 5 5 5 3 3 2 5 5 2 2 Moda 7 5 3 6 4 4 4 3 6 4 3 2 6 5 4 3 3 0 4 4 1 0 Mediana 6 5 4 6 4 4 4 3 6 4 2 2 5 5 5 2 2 0 3 4 1 05 Média Desvio Padrão No JASP Descriptive Statistics x1 X2 X3 X4 X5 X6 X7 X8 X9 X10 X11 X12 X13 X14 X15 X16 X17 X18 X19 X20 X21 X22 Valid 1400 1400 1400 1400 1400 1400 1400 1400 1400 1400 1400 1400 1400 1400 1400 1400 1400 1400 1400 1400 1400 1400 Missing 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 Mean Std Deviation Minimum 3000 100 0 1000 3000 1000 1000 1000 100 0 3000 2000 1000 1000 300 0 3000 3000 1000 1000 0000 100 0 1000 0000 0000 Maximum 7000 700 0 7000 7000 7000 7000 7000 600 0 7000 6000 5000 5000 700 0 7000 7000 3000 3000 1000 500 0 5000 1000 1000 Campus Central Av Ipiranga 6681 CEP 90619900 Porto Alegre RS Brasil Fone 51 33203503 Email relacionamentogradonlinepucrsbr wwwonlinepucrsbr Escolha de ao menos dois algoritmos de aprendizado para a modelagem Apresente os algoritmos utilizados e justifique a escolha Para modelagem utilizamse como teste três técnicas de classificação Boosting Classification Decision Tree Classification e Random Forest Classification Tais escolhas recaem sobre 3 técnicas de classificação que possam ser comparadas sob estratégia de entrada semelhantes para geração das bases de dados Execução dos testes e comparação das métricas de aprendizado Descreva o processo e os resultados obtidos apresentando pelo menos 3 métricas de aprendizado comparando entre os algoritmos escolhidos Utilize e apresente o set seed de acordo com os últimos 4 dígitos da sua matrícula de estudante PUCRS deve estar no arquivo JASP São feitos 3 testes Boosting Classification Decision Tree e Linear Discriminant selecionandose como meta o retorno ou não do cliente tomando como características o gênero e a idade Colocase como seed test a sequência 502253 definindose um conjunto de teste de 10 da amostra total e conjunto de treino e validação de 40 Campus Central Av Ipiranga 6681 CEP 90619900 Porto Alegre RS Brasil Fone 51 33203503 Email relacionamentogradonlinepucrsbr wwwonlinepucrsbr Campus Central Av Ipiranga 6681 CEP 90619900 Porto Alegre RS Brasil Fone 51 33203503 Email relacionamentogradonlinepucrsbr wwwonlinepucrsbr Campus Central Av Ipiranga 6681 CEP 90619900 Porto Alegre RS Brasil Fone 51 33203503 Email relacionamentogradonlinepucrsbr wwwonlinepucrsbr Campus Central Av Ipiranga 6681 CEP 90619900 Porto Alegre RS Brasil Fone 51 33203503 Email relacionamentogradonlinepucrsbr wwwonlinepucrsbr Campus Central Av Ipiranga 6681 CEP 90619900 Porto Alegre RS Brasil Fone 51 33203503 Email relacionamentogradonlinepucrsbr wwwonlinepucrsbr Campus Central Av Ipiranga 6681 CEP 90619900 Porto Alegre RS Brasil Fone 51 33203503 Email relacionamentogradonlinepucrsbr wwwonlinepucrsbr Os resultados de treinamento e teste para as três técnicas selecionadas são apresentados a seguir Campus Central Av Ipiranga 6681 CEP 90619900 Porto Alegre RS Brasil Fone 51 33203503 Email relacionamentogradonlinepucrsbr wwwonlinepucrsbr Campus Central Av Ipiranga 6681 CEP 90619900 Porto Alegre RS Brasil Fone 51 33203503 Email relacionamentogradonlinepucrsbr wwwonlinepucrsbr Campus Central Av Ipiranga 6681 CEP 90619900 Porto Alegre RS Brasil Fone 51 33203503 Email relacionamentogradonlinepucrsbr wwwonlinepucrsbr Campus Central Av Ipiranga 6681 CEP 90619900 Porto Alegre RS Brasil Fone 51 33203503 Email relacionamentogradonlinepucrsbr wwwonlinepucrsbr Recomendações Gerenciais Apresente uma reflexão acerca dos resultados obtidos com este projeto apresentando recomendações gerenciais consistentes relacionados as análises utilizadas As técnicas utilizadas podem ser ampla e irrestritamente mescladas de modo a fornecer uma visão completa sobre classificação de padrões em diferentes estratos e nuances das características numéricas nominais e ordinais Em termos da peculiaridade de cada uma das técnicas experimentadas observase que a classificação por floresta aleatória forneceu a despeito de uma precisão de teste inferior um valor maior de precisão para estimativas OOB out of bag Arquivo JASP Apresente o Arquivo JASP do projeto completo com todos os testes e devidos comentários Campus Central Av Ipiranga 6681 CEP 90619900 Porto Alegre RS Brasil Fone 51 33203503 Email relacionamentogradonlinepucrsbr wwwonlinepucrsbr Campus Central Av Ipiranga 6681 CEP 90619900 Porto Alegre RS Brasil Fone 51 33203503 Email relacionamentogradonlinepucrsbr wwwonlinepucrsbr Template para entrega do projeto da disciplina Big Data Datascience e Analytics Fase 2 Nome do estudante Rafael Chaves Barroso Desenvolva um processo de ciência de dados no JASP cobrindo os elementos a seguir Problema de Ciência de dados Qual o problema de ciência de dados vai ser resolvida e a justificativa da resposta Intentase prosseguir com o problema que aborda uma pesquisa realizada com os clientes de dois restaurantes em São Paulo Clientes 1400 dicionário de dados e conjunto de dados disponíveis em anexo Um dos restaurantes é o Samouel American Foods especializado em comida norte americana O outro é o Giino Casa de massas um restaurante italiano localizado a cerca de uma quadra de distância do primeiro Ambos os restaurantes servem uma clientela seleta para almoço e jantar Nesse contexto foi realizada uma série de entrevistas com os clientes no momento que estes saíam dos restaurantes Chegouse a um total de 1600 entrevistas mas 20 delas não apresentavam todos os dados Buscase solucionar o problema de modo a indicar a melhor escolha ao freguês de modo a maximizar a demanda dos dois restaurantes Campus Central Av Ipiranga 6681 CEP 90619900 Porto Alegre RS Brasil Fone 51 33203503 Email relacionamentogradonlinepucrsbr wwwonlinepucrsbr Técnicas utilizadas para solucionar o problema Além de análises descritivas de dados em termos do levantamento de estatísticas descritivas como medidas inferenciais e de dispersão podese fazer uso das seguintes técnicas de Aprendizado de Máquina Boosting Classification Decision Tree e Random Forest Classification Exploração dos dados Sobre cada coluna das 22 do conjunto de dados para cada coluna Qual o tipo de dados NominalOrdinalNuméricoData eou hora Os dados nas colunas de dados são nominais ou ordinais em maioria Em poucos casos são numéricos Quais são os valores considerados válidos São válidos todos as valores apresentados no JASP sendo 1400 por coluna Quantos valores distintos aparecem na coluna Qual o menor e o maior valor e qual a moda Os valores da coluna são numéricos Qual a média e qual o desviopadrão Qual a mediana Levantamse os valores solicitados na tabela anexa scho ol sex age addr ess fams ize Pstat us Med u Fedu Mjob Fjob reas on guar dian trave ltime stud ytim e failur es scho olsup fams up paid activi ties nurs ery high er inter net roma ntic famr el freeti me goou t Dalc Walc healt h abse nces G1 G2 G3 Mod a ND ND 16 ND ND ND 4 2 ND ND ND ND 1 2 0 ND ND ND ND ND ND ND ND 4 3 3 1 1 5 0 10 9 10 Médi a DIV 0 DIV 0 166 962 DIV 0 DIV 0 DIV 0 274 9367 252 1519 DIV 0 DIV 0 DIV 0 DIV 0 144 8101 203 5443 033 4177 DIV 0 DIV 0 DIV 0 DIV 0 DIV 0 DIV 0 DIV 0 DIV 0 394 4304 323 5443 310 8861 148 1013 229 1139 355 443 570 8861 109 0886 107 1392 104 1519 Desvi o DIV 0 DIV 0 127 4426 DIV 0 DIV 0 DIV 0 109 3349 108 6822 DIV 0 DIV 0 DIV 0 DIV 0 069 6621 083 8177 074 2709 DIV 0 DIV 0 DIV 0 DIV 0 DIV 0 DIV 0 DIV 0 DIV 0 089 5523 099 7597 111 1868 088 9613 128 6265 138 8542 799 2959 331 499 375 674 457 564 Campus Central Av Ipiranga 6681 CEP 90619900 Porto Alegre RS Brasil Fone 51 33203503 Email relacionamentogradonlinepucrsbr wwwonlinepucrsbr No Excel Mínimo 3 1 1 3 1 1 1 1 3 2 1 1 3 3 3 1 1 0 1 1 0 0 Máximo 7 7 7 7 7 7 7 6 7 6 5 5 7 7 7 3 3 1 5 5 1 1 Valores distintos 5 7 7 5 7 7 7 6 5 5 5 5 5 5 5 3 3 2 5 5 2 2 Moda 7 5 3 6 4 4 4 3 6 4 3 2 6 5 4 3 3 0 4 4 1 0 Mediana 6 5 4 6 4 4 4 3 6 4 2 2 5 5 5 2 2 0 3 4 1 05 Média Desvio Padrão No JASP Descriptive Statistics x1 X2 X3 X4 X5 X6 X7 X8 X9 X10 X11 X12 X13 X14 X15 X16 X17 X18 X19 X20 X21 X22 Valid 1400 1400 1400 1400 1400 1400 1400 1400 1400 1400 1400 1400 1400 1400 1400 1400 1400 1400 1400 1400 1400 1400 Missing 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 Mean Std Deviation Minimum 3000 1000 1000 3000 1000 1000 1000 1000 3000 2000 1000 1000 3000 3000 3000 1000 1000 0000 1000 1000 0000 0000 Maximum 7000 7000 7000 7000 7000 7000 7000 6000 7000 6000 5000 5000 7000 7000 7000 3000 3000 1000 5000 5000 1000 1000 Campus Central Av Ipiranga 6681 CEP 90619900 Porto Alegre RS Brasil Fone 51 33203503 Email relacionamentogradonlinepucrsbr wwwonlinepucrsbr Escolha de ao menos dois algoritmos de aprendizado para a modelagem Apresente os algoritmos utilizados e justifique a escolha Para modelagem utilizamse como teste três técnicas de classificação Boosting Classification Decision Tree Classification e Random Forest Classification Tais escolhas recaem sobre 3 técnicas de classificação que possam ser comparadas sob estratégia de entrada semelhantes para geração das bases de dados Execução dos testes e comparação das métricas de aprendizado Descreva o processo e os resultados obtidos apresentando pelo menos 3 métricas de aprendizado comparando entre os algoritmos escolhidos Utilize e apresente o set seed de acordo com os últimos 4 dígitos da sua matrícula de estudante PUCRS deve estar no arquivo JASP São feitos 3 testes Boosting Classification Decision Tree e Linear Discriminant selecionandose como meta o retorno ou não do cliente tomando como características o gênero e a idade Colocase como seed test a sequência 502253 definindose um conjunto de teste de 10 da amostra total e conjunto de treino e validação de 40 Campus Central Av Ipiranga 6681 CEP 90619900 Porto Alegre RS Brasil Fone 51 33203503 Email relacionamentogradonlinepucrsbr wwwonlinepucrsbr Campus Central Av Ipiranga 6681 CEP 90619900 Porto Alegre RS Brasil Fone 51 33203503 Email relacionamentogradonlinepucrsbr wwwonlinepucrsbr Campus Central Av Ipiranga 6681 CEP 90619900 Porto Alegre RS Brasil Fone 51 33203503 Email relacionamentogradonlinepucrsbr wwwonlinepucrsbr Campus Central Av Ipiranga 6681 CEP 90619900 Porto Alegre RS Brasil Fone 51 33203503 Email relacionamentogradonlinepucrsbr wwwonlinepucrsbr Campus Central Av Ipiranga 6681 CEP 90619900 Porto Alegre RS Brasil Fone 51 33203503 Email relacionamentogradonlinepucrsbr wwwonlinepucrsbr Campus Central Av Ipiranga 6681 CEP 90619900 Porto Alegre RS Brasil Fone 51 33203503 Email relacionamentogradonlinepucrsbr wwwonlinepucrsbr Os resultados de treinamento e teste para as três técnicas selecionadas são apresentados a seguir Campus Central Av Ipiranga 6681 CEP 90619900 Porto Alegre RS Brasil Fone 51 33203503 Email relacionamentogradonlinepucrsbr wwwonlinepucrsbr Campus Central Av Ipiranga 6681 CEP 90619900 Porto Alegre RS Brasil Fone 51 33203503 Email relacionamentogradonlinepucrsbr wwwonlinepucrsbr Campus Central Av Ipiranga 6681 CEP 90619900 Porto Alegre RS Brasil Fone 51 33203503 Email relacionamentogradonlinepucrsbr wwwonlinepucrsbr Campus Central Av Ipiranga 6681 CEP 90619900 Porto Alegre RS Brasil Fone 51 33203503 Email relacionamentogradonlinepucrsbr wwwonlinepucrsbr Recomendações Gerenciais Apresente uma reflexão acerca dos resultados obtidos com este projeto apresentando recomendações gerenciais consistentes relacionados as análises utilizadas As técnicas utilizadas podem ser ampla e irrestritamente mescladas de modo a fornecer uma visão completa sobre classificação de padrões em diferentes estratos e nuances das características numéricas nominais e ordinais Em termos da peculiaridade de cada uma das técnicas experimentadas observase que a classificação por floresta aleatória forneceu a despeito de uma precisão de teste inferior um valor maior de precisão para estimativas OOB out of bag Arquivo JASP Apresente o Arquivo JASP do projeto completo com todos os testes e devidos comentários Feedbacks do Professor 01042024 cerca de 17 horas atrás Problema de ciência de dados Não foi identificado o problema de ciência de dados Segundo seu jasp seria analisar o retorno ou não do cliente ao restaurante uma abordagem de modelagem de classificação Quais Técnicas Serão Utilizadas Para Solucionar O Problema Análise descritiva ok decistion tree ok boosting Classificationok Random Forest Classification ok 2 Análise exploratória dos dados ok Execução Dos Testes E Comparações Das Métricas De Aprendizado faltou a comparação das métricas de classificação 3 Avaliação dos Algoritmos utilizados na base de teste ok 4 Implantação do algoritmo na base de predição ok 5 Recomendações gerenciais Poderia ter comentado mais os outputs gerados pelo jasp acerca dos modelos de classificação voltados ao négocio
19
Banco de Dados
PUC
5
Banco de Dados
PUC
2
Banco de Dados
PUC
26
Banco de Dados
PUC
3
Banco de Dados
PUC
4
Banco de Dados
PUC
89
Banco de Dados
PUC
5
Banco de Dados
PUC
91
Banco de Dados
PUC
Texto de pré-visualização
Template para entrega do projeto da disciplina Big Data Datascience e Analytics Fase 2 Nome do estudante Rafael Chaves Barroso Desenvolva um processo de ciência de dados no JASP cobrindo os elementos a seguir Problema de Ciência de dados Qual o problema de ciência de dados vai ser resolvida e a justificativa da resposta Intentase prosseguir com o problema que aborda uma pesquisa realizada com os clientes de dois restaurantes em São Paulo Clientes 1400 dicionário de dados e conjunto de dados disponíveis em anexo Um dos restaurantes é o Samouel American Foods especializado em comida norte americana O outro é o Giino Casa de massas um restaurante italiano localizado a cerca de uma quadra de distância do primeiro Ambos os restaurantes servem uma clientela seleta para almoço e jantar Nesse contexto foi realizada uma série de entrevistas com os clientes no momento que estes saíam dos restaurantes Chegouse a um total de 1600 entrevistas mas 20 delas não apresentavam todos os dados Buscase solucionar o problema de modo a indicar a melhor escolha ao freguês de modo a maximizar a demanda dos dois restaurantes Campus Central Av Ipiranga 6681 CEP 90619900 Porto Alegre RS Brasil Fone 51 33203503 Email relacionamentogradonlinepucrsbr wwwonlinepucrsbr Técnicas utilizadas para solucionar o problema Além de análises descritivas de dados em termos do levantamento de estatísticas descritivas como medidas inferenciais e de dispersão podese fazer uso das seguintes técnicas de Aprendizado de Máquina Boosting Classification Decision Tree e Random Forest Classification Exploração dos dados Sobre cada coluna das 22 do conjunto de dados para cada coluna Qual o tipo de dados NominalOrdinalNuméricoData eou hora Os dados nas colunas de dados são nominais ou ordinais em maioria Em poucos casos são numéricos Quais são os valores considerados válidos São válidos todos as valores apresentados no JASP sendo 1400 por coluna Quantos valores distintos aparecem na coluna Qual o menor e o maior valor e qual a moda Os valores da coluna são numéricos Qual a média e qual o desviopadrão Qual a mediana Levantamse os valores solicitados na tabela anexa school sex age address famsize Pstatus Medu Fedu Mjob Fjob reason guardian traveltime studytime Moda ND ND 16 ND ND ND 4 2 ND ND ND ND 1 2 Média DIV0 DIV0 166962 DIV0 DIV0 DIV0 2749367 2521519 DIV0 DIV0 DIV0 DIV0 1448101 2035443 Desvio DIV0 DIV0 1274426 DIV0 DIV0 DIV0 1093349 1086822 DIV0 DIV0 DIV0 DIV0 0696621 0838177 Campus Central Av Ipiranga 6681 CEP 90619900 Porto Alegre RS Brasil Fone 51 33203503 Email relacionamentogradonlinepucrsbr wwwonlinepucrsbr No Excel Mínimo 3 1 1 3 1 1 1 1 3 2 1 1 3 3 3 1 1 0 1 1 0 0 Máximo 7 7 7 7 7 7 7 6 7 6 5 5 7 7 7 3 3 1 5 5 1 1 Valores distintos 5 7 7 5 7 7 7 6 5 5 5 5 5 5 5 3 3 2 5 5 2 2 Moda 7 5 3 6 4 4 4 3 6 4 3 2 6 5 4 3 3 0 4 4 1 0 Mediana 6 5 4 6 4 4 4 3 6 4 2 2 5 5 5 2 2 0 3 4 1 05 Média Desvio Padrão No JASP Descriptive Statistics x1 X2 X3 X4 X5 X6 X7 X8 X9 X10 X11 X12 X13 X14 X15 X16 X17 X18 X19 X20 X21 X22 Valid 1400 1400 1400 1400 1400 1400 1400 1400 1400 1400 1400 1400 1400 1400 1400 1400 1400 1400 1400 1400 1400 1400 Missing 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 Mean Std Deviation Minimum 3000 100 0 1000 3000 1000 1000 1000 100 0 3000 2000 1000 1000 300 0 3000 3000 1000 1000 0000 100 0 1000 0000 0000 Maximum 7000 700 0 7000 7000 7000 7000 7000 600 0 7000 6000 5000 5000 700 0 7000 7000 3000 3000 1000 500 0 5000 1000 1000 Campus Central Av Ipiranga 6681 CEP 90619900 Porto Alegre RS Brasil Fone 51 33203503 Email relacionamentogradonlinepucrsbr wwwonlinepucrsbr Escolha de ao menos dois algoritmos de aprendizado para a modelagem Apresente os algoritmos utilizados e justifique a escolha Para modelagem utilizamse como teste três técnicas de classificação Boosting Classification Decision Tree Classification e Random Forest Classification Tais escolhas recaem sobre 3 técnicas de classificação que possam ser comparadas sob estratégia de entrada semelhantes para geração das bases de dados Execução dos testes e comparação das métricas de aprendizado Descreva o processo e os resultados obtidos apresentando pelo menos 3 métricas de aprendizado comparando entre os algoritmos escolhidos Utilize e apresente o set seed de acordo com os últimos 4 dígitos da sua matrícula de estudante PUCRS deve estar no arquivo JASP São feitos 3 testes Boosting Classification Decision Tree e Linear Discriminant selecionandose como meta o retorno ou não do cliente tomando como características o gênero e a idade Colocase como seed test a sequência 502253 definindose um conjunto de teste de 10 da amostra total e conjunto de treino e validação de 40 Campus Central Av Ipiranga 6681 CEP 90619900 Porto Alegre RS Brasil Fone 51 33203503 Email relacionamentogradonlinepucrsbr wwwonlinepucrsbr Campus Central Av Ipiranga 6681 CEP 90619900 Porto Alegre RS Brasil Fone 51 33203503 Email relacionamentogradonlinepucrsbr wwwonlinepucrsbr Campus Central Av Ipiranga 6681 CEP 90619900 Porto Alegre RS Brasil Fone 51 33203503 Email relacionamentogradonlinepucrsbr wwwonlinepucrsbr Campus Central Av Ipiranga 6681 CEP 90619900 Porto Alegre RS Brasil Fone 51 33203503 Email relacionamentogradonlinepucrsbr wwwonlinepucrsbr Campus Central Av Ipiranga 6681 CEP 90619900 Porto Alegre RS Brasil Fone 51 33203503 Email relacionamentogradonlinepucrsbr wwwonlinepucrsbr Campus Central Av Ipiranga 6681 CEP 90619900 Porto Alegre RS Brasil Fone 51 33203503 Email relacionamentogradonlinepucrsbr wwwonlinepucrsbr Os resultados de treinamento e teste para as três técnicas selecionadas são apresentados a seguir Campus Central Av Ipiranga 6681 CEP 90619900 Porto Alegre RS Brasil Fone 51 33203503 Email relacionamentogradonlinepucrsbr wwwonlinepucrsbr Campus Central Av Ipiranga 6681 CEP 90619900 Porto Alegre RS Brasil Fone 51 33203503 Email relacionamentogradonlinepucrsbr wwwonlinepucrsbr Campus Central Av Ipiranga 6681 CEP 90619900 Porto Alegre RS Brasil Fone 51 33203503 Email relacionamentogradonlinepucrsbr wwwonlinepucrsbr Campus Central Av Ipiranga 6681 CEP 90619900 Porto Alegre RS Brasil Fone 51 33203503 Email relacionamentogradonlinepucrsbr wwwonlinepucrsbr Recomendações Gerenciais Apresente uma reflexão acerca dos resultados obtidos com este projeto apresentando recomendações gerenciais consistentes relacionados as análises utilizadas As técnicas utilizadas podem ser ampla e irrestritamente mescladas de modo a fornecer uma visão completa sobre classificação de padrões em diferentes estratos e nuances das características numéricas nominais e ordinais Em termos da peculiaridade de cada uma das técnicas experimentadas observase que a classificação por floresta aleatória forneceu a despeito de uma precisão de teste inferior um valor maior de precisão para estimativas OOB out of bag Arquivo JASP Apresente o Arquivo JASP do projeto completo com todos os testes e devidos comentários Campus Central Av Ipiranga 6681 CEP 90619900 Porto Alegre RS Brasil Fone 51 33203503 Email relacionamentogradonlinepucrsbr wwwonlinepucrsbr Campus Central Av Ipiranga 6681 CEP 90619900 Porto Alegre RS Brasil Fone 51 33203503 Email relacionamentogradonlinepucrsbr wwwonlinepucrsbr Template para entrega do projeto da disciplina Big Data Datascience e Analytics Fase 2 Nome do estudante Rafael Chaves Barroso Desenvolva um processo de ciência de dados no JASP cobrindo os elementos a seguir Problema de Ciência de dados Qual o problema de ciência de dados vai ser resolvida e a justificativa da resposta Intentase prosseguir com o problema que aborda uma pesquisa realizada com os clientes de dois restaurantes em São Paulo Clientes 1400 dicionário de dados e conjunto de dados disponíveis em anexo Um dos restaurantes é o Samouel American Foods especializado em comida norte americana O outro é o Giino Casa de massas um restaurante italiano localizado a cerca de uma quadra de distância do primeiro Ambos os restaurantes servem uma clientela seleta para almoço e jantar Nesse contexto foi realizada uma série de entrevistas com os clientes no momento que estes saíam dos restaurantes Chegouse a um total de 1600 entrevistas mas 20 delas não apresentavam todos os dados Buscase solucionar o problema de modo a indicar a melhor escolha ao freguês de modo a maximizar a demanda dos dois restaurantes Campus Central Av Ipiranga 6681 CEP 90619900 Porto Alegre RS Brasil Fone 51 33203503 Email relacionamentogradonlinepucrsbr wwwonlinepucrsbr Técnicas utilizadas para solucionar o problema Além de análises descritivas de dados em termos do levantamento de estatísticas descritivas como medidas inferenciais e de dispersão podese fazer uso das seguintes técnicas de Aprendizado de Máquina Boosting Classification Decision Tree e Random Forest Classification Exploração dos dados Sobre cada coluna das 22 do conjunto de dados para cada coluna Qual o tipo de dados NominalOrdinalNuméricoData eou hora Os dados nas colunas de dados são nominais ou ordinais em maioria Em poucos casos são numéricos Quais são os valores considerados válidos São válidos todos as valores apresentados no JASP sendo 1400 por coluna Quantos valores distintos aparecem na coluna Qual o menor e o maior valor e qual a moda Os valores da coluna são numéricos Qual a média e qual o desviopadrão Qual a mediana Levantamse os valores solicitados na tabela anexa scho ol sex age addr ess fams ize Pstat us Med u Fedu Mjob Fjob reas on guar dian trave ltime stud ytim e failur es scho olsup fams up paid activi ties nurs ery high er inter net roma ntic famr el freeti me goou t Dalc Walc healt h abse nces G1 G2 G3 Mod a ND ND 16 ND ND ND 4 2 ND ND ND ND 1 2 0 ND ND ND ND ND ND ND ND 4 3 3 1 1 5 0 10 9 10 Médi a DIV 0 DIV 0 166 962 DIV 0 DIV 0 DIV 0 274 9367 252 1519 DIV 0 DIV 0 DIV 0 DIV 0 144 8101 203 5443 033 4177 DIV 0 DIV 0 DIV 0 DIV 0 DIV 0 DIV 0 DIV 0 DIV 0 394 4304 323 5443 310 8861 148 1013 229 1139 355 443 570 8861 109 0886 107 1392 104 1519 Desvi o DIV 0 DIV 0 127 4426 DIV 0 DIV 0 DIV 0 109 3349 108 6822 DIV 0 DIV 0 DIV 0 DIV 0 069 6621 083 8177 074 2709 DIV 0 DIV 0 DIV 0 DIV 0 DIV 0 DIV 0 DIV 0 DIV 0 089 5523 099 7597 111 1868 088 9613 128 6265 138 8542 799 2959 331 499 375 674 457 564 Campus Central Av Ipiranga 6681 CEP 90619900 Porto Alegre RS Brasil Fone 51 33203503 Email relacionamentogradonlinepucrsbr wwwonlinepucrsbr No Excel Mínimo 3 1 1 3 1 1 1 1 3 2 1 1 3 3 3 1 1 0 1 1 0 0 Máximo 7 7 7 7 7 7 7 6 7 6 5 5 7 7 7 3 3 1 5 5 1 1 Valores distintos 5 7 7 5 7 7 7 6 5 5 5 5 5 5 5 3 3 2 5 5 2 2 Moda 7 5 3 6 4 4 4 3 6 4 3 2 6 5 4 3 3 0 4 4 1 0 Mediana 6 5 4 6 4 4 4 3 6 4 2 2 5 5 5 2 2 0 3 4 1 05 Média Desvio Padrão No JASP Descriptive Statistics x1 X2 X3 X4 X5 X6 X7 X8 X9 X10 X11 X12 X13 X14 X15 X16 X17 X18 X19 X20 X21 X22 Valid 1400 1400 1400 1400 1400 1400 1400 1400 1400 1400 1400 1400 1400 1400 1400 1400 1400 1400 1400 1400 1400 1400 Missing 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 Mean Std Deviation Minimum 3000 1000 1000 3000 1000 1000 1000 1000 3000 2000 1000 1000 3000 3000 3000 1000 1000 0000 1000 1000 0000 0000 Maximum 7000 7000 7000 7000 7000 7000 7000 6000 7000 6000 5000 5000 7000 7000 7000 3000 3000 1000 5000 5000 1000 1000 Campus Central Av Ipiranga 6681 CEP 90619900 Porto Alegre RS Brasil Fone 51 33203503 Email relacionamentogradonlinepucrsbr wwwonlinepucrsbr Escolha de ao menos dois algoritmos de aprendizado para a modelagem Apresente os algoritmos utilizados e justifique a escolha Para modelagem utilizamse como teste três técnicas de classificação Boosting Classification Decision Tree Classification e Random Forest Classification Tais escolhas recaem sobre 3 técnicas de classificação que possam ser comparadas sob estratégia de entrada semelhantes para geração das bases de dados Execução dos testes e comparação das métricas de aprendizado Descreva o processo e os resultados obtidos apresentando pelo menos 3 métricas de aprendizado comparando entre os algoritmos escolhidos Utilize e apresente o set seed de acordo com os últimos 4 dígitos da sua matrícula de estudante PUCRS deve estar no arquivo JASP São feitos 3 testes Boosting Classification Decision Tree e Linear Discriminant selecionandose como meta o retorno ou não do cliente tomando como características o gênero e a idade Colocase como seed test a sequência 502253 definindose um conjunto de teste de 10 da amostra total e conjunto de treino e validação de 40 Campus Central Av Ipiranga 6681 CEP 90619900 Porto Alegre RS Brasil Fone 51 33203503 Email relacionamentogradonlinepucrsbr wwwonlinepucrsbr Campus Central Av Ipiranga 6681 CEP 90619900 Porto Alegre RS Brasil Fone 51 33203503 Email relacionamentogradonlinepucrsbr wwwonlinepucrsbr Campus Central Av Ipiranga 6681 CEP 90619900 Porto Alegre RS Brasil Fone 51 33203503 Email relacionamentogradonlinepucrsbr wwwonlinepucrsbr Campus Central Av Ipiranga 6681 CEP 90619900 Porto Alegre RS Brasil Fone 51 33203503 Email relacionamentogradonlinepucrsbr wwwonlinepucrsbr Campus Central Av Ipiranga 6681 CEP 90619900 Porto Alegre RS Brasil Fone 51 33203503 Email relacionamentogradonlinepucrsbr wwwonlinepucrsbr Campus Central Av Ipiranga 6681 CEP 90619900 Porto Alegre RS Brasil Fone 51 33203503 Email relacionamentogradonlinepucrsbr wwwonlinepucrsbr Os resultados de treinamento e teste para as três técnicas selecionadas são apresentados a seguir Campus Central Av Ipiranga 6681 CEP 90619900 Porto Alegre RS Brasil Fone 51 33203503 Email relacionamentogradonlinepucrsbr wwwonlinepucrsbr Campus Central Av Ipiranga 6681 CEP 90619900 Porto Alegre RS Brasil Fone 51 33203503 Email relacionamentogradonlinepucrsbr wwwonlinepucrsbr Campus Central Av Ipiranga 6681 CEP 90619900 Porto Alegre RS Brasil Fone 51 33203503 Email relacionamentogradonlinepucrsbr wwwonlinepucrsbr Campus Central Av Ipiranga 6681 CEP 90619900 Porto Alegre RS Brasil Fone 51 33203503 Email relacionamentogradonlinepucrsbr wwwonlinepucrsbr Recomendações Gerenciais Apresente uma reflexão acerca dos resultados obtidos com este projeto apresentando recomendações gerenciais consistentes relacionados as análises utilizadas As técnicas utilizadas podem ser ampla e irrestritamente mescladas de modo a fornecer uma visão completa sobre classificação de padrões em diferentes estratos e nuances das características numéricas nominais e ordinais Em termos da peculiaridade de cada uma das técnicas experimentadas observase que a classificação por floresta aleatória forneceu a despeito de uma precisão de teste inferior um valor maior de precisão para estimativas OOB out of bag Arquivo JASP Apresente o Arquivo JASP do projeto completo com todos os testes e devidos comentários Feedbacks do Professor 01042024 cerca de 17 horas atrás Problema de ciência de dados Não foi identificado o problema de ciência de dados Segundo seu jasp seria analisar o retorno ou não do cliente ao restaurante uma abordagem de modelagem de classificação Quais Técnicas Serão Utilizadas Para Solucionar O Problema Análise descritiva ok decistion tree ok boosting Classificationok Random Forest Classification ok 2 Análise exploratória dos dados ok Execução Dos Testes E Comparações Das Métricas De Aprendizado faltou a comparação das métricas de classificação 3 Avaliação dos Algoritmos utilizados na base de teste ok 4 Implantação do algoritmo na base de predição ok 5 Recomendações gerenciais Poderia ter comentado mais os outputs gerados pelo jasp acerca dos modelos de classificação voltados ao négocio