·
Administração ·
Estrutura de Dados
Envie sua pergunta para a IA e receba a resposta na hora
Recomendado para você
Texto de pré-visualização
CIÊNCIAS DE DADOS APLICADOS À GESTÃO PERCURSO DE APRENDIZAGEM 2 Este trabalho está licenciado com uma Licença Creative Commons AtribuiçãoNãoComercialSemDerivações 40 Internacional Sumário clicável INTELIGÊNCIA DE NEGÓCIOS Sumário Contexto dos dados 1 Modelos de levantamento de problemas de negócios 2 orientado a dados Voltar ao sumário 4 Quando falamos em dados ainda estamos tratando da forma bruta de representação uma vez que os dados ainda não foram lapidados para transformarse em informação Contudo necessita passar pelo processo completo de transformação para que de fato gere um valor para o negócio No entanto os dados envolvem certa complexidade e podem ser classificados de acordo com seu tipo escala e formatos principalmente na mineração de dados e ciência onde representam grande impacto na resolução de problemas Para conhecer os conceitos acerca da análise de dados manipulação e estatística é necessário compreender as diferentes aplicações que os dados nos permitem Neste percurso iremos tratar desde conceitos simples até a aplicação dos dados e sua efetividade no levantamento e resolução de problemas que envolvem os negócios Olá Voltar ao sumário 5 CONTEXTO DOS DADOS 1 INTRODUÇÃO Dados podem ser definidos como valores que são atribuídos à determinado objeto ou seja valores que representam uma determinada característica como por exemplo a cor do cabelo de Ana Neste caso o valor do dado seria representado pela cor do cabelo que pode receber diferentes valores preto castanho loiro e ruivo Assim entendese que esses valores não necessariamente precisam ser numéricos mas também podem representar posições em um mapa específico No entanto por mais que os dados possam ser representados de diferentes formas valores posições conceitos independentemente de como isso ocorra os dados sempre serão medidos ou mensurados por meio de um instrumento de medida ou então atribuídos de forma aleatória o que depende principalmente do cenário e do problema que está sendo analisado Em virtude de suas características básicas os dados são fundamentais em diferentes áreas e tratandose de aplicações que envolvam técnicas de inteligência artificial e ciência de dados principalmente A cada dia os dados tornamse ainda mais relevantes uma vez que determinam o processo inteiro sobre a construção de uma aplicação e a capacidade necessária para ler as informações transformar e visualizar Sob essa perspectiva entendese que o tipo dos dados é um fator determinante para definição de técnicas e ferramentas a serem utilizadas na análise de dados e o objetivo da inteligência na organização é transformar os dados em informações estruturas e estratégicas para alcançar vantagem competitiva MARÓSTICA CASTELOBRANCO ARÓSTICA 2014 11 TIPO DE DADOS Os tipos de dados definem principalmente as características que um conjunto de dados deve ter e como eles podem ser vistos pois podem ser denominados coleção de objetos de dados Sendo que esses objetos também apresentam denominações como registros vetores padrões exemplos observações ou entidades Figura 1 Voltar ao sumário 6 Figura 1 Manipulação de dados Fonte Freepik 2022 Independentemente da nomenclatura que os define os objetos de dados geralmente são descritos por um conjunto de atributos que capturam os principais atributos de um determinado objeto como a massa do objeto real ou a hora em que o evento aconteceu Outros nomes também são usados para atributos como variáveis funções atributos ou dimensões Uma propriedade é portanto definida como uma propriedade ou propriedade de um objeto que pode mudar de um objeto para outro ou de tempos em tempos No nível mais básico os atributos não têm relação com números ou símbolos mas são atribuídos a eles para que as características de um conjunto de objetos de dados possam ser analisadas com mais precisão E para realizar este processo de forma muito clara e definida considerase a utilização de uma escala de metrologia Por escala de medida entendemos uma regra que visa associar um valor numérico ou simbólico a um atributo específico do objeto Em outras palavras o processo de pulverização tornase a aplicação de uma escala de medição associada a um determinado atributo de um determinado objeto O tipo de atributo permite relatar quais de suas propriedades têm impacto nos valores usados para medilo Assim conhecer o tipo de um atributo é fundamental pois permite entender quais propriedades dos valores medidos são consistentes com as propriedades correspondentes dos atributos e garante a redução de falhas no processo de medição desde erros de cálculo com atributos incorretos Para compreender a essência dos dados devemos antes classificar os tipos de atributos conforme ilustra a Figura 2 Voltar ao sumário 7 Figura 2 Tipos de atributos Nominal Ordinal Qualitativos Binário Numérico Simétrico Assimétrico Discreto Quantitativos Contínuo Fonte Elaborada pela autora 2022 De forma prática os atributos são caracterizados da seguinte forma Atributos qualitativos Nominal nomes símbolos representação de categorias não ordenados Ordinal consideram a definição através de um grau previamente definido Um exemplo é a representação de escolaridade 1º 2º e 3º grau Binários podem atribuir dois valores 1 ou 0 respectivamente sendo também representados por verdadeiro ou falso Podem ser classificados como simétrico valores igualmente importantes gênero ou assimétricos representando um resultado através de valores que não são igualmente importantes Atributos quantitativos Numérico quantidade mensurável que pode ser representada através de valores inteiros ou reais Discreto podem ser obtidos através de valores finitos Contínuo consideram um número infinito de estados sendo do tipo flutuante uma vez que representam valores que se localizam entre outros Por exemplo todos os números que se encontram entre 2 e 3 De acordo com Maróstica CasteloBranco Maróstica 2014 o principal objetivo da inteligência tecnológica está em garantir que os sistemas atuais sejam capazes de extrair dados otimizando as estratégias de negócio e eliminando gradativamente os bancos de dados tradicionais Voltar ao sumário 8 Já de acordo com Castro e Ferrari 2016 apesar da forma definida como os dados são classificados e organizados é possível que os dados passem por inconsistência uma vez que tanto os dados como os atributos podem ser representados incorretamente devidos à forma como são representados em diferentes sistemas Imagine que você construiu uma base de dados para definir o públicoalvo de um parque de diversões onde a idade deve ser controlada mas diferentes pessoas que inserem as informações determinam os valores como criança infantil ou menor para o mesmo caso o que acaba gerando uma inconsistência e dificuldade no controle de dados Já na ciência de dados algoritmos trazem formas eficientes de resolver problemas como estes 12 ESCALAS DE DADOS Inicialmente é necessário entender as escalas e depois aplicálas a diferentes tipos Diante disso quando uma origem e uma medida são anexadas a ela uma escala pode ser determinada Considerando o conceito matemático a origem geralmente é fixada em zero e as unidades são expressas de uma única forma Em estatística por outro lado a origem de uma escala pode ser centrada em torno da média enquanto as unidades são estabelecidas como desvios de sua média Portanto a associação de números com propriedades características do objeto deve seguir algumas regras préestabelecidas eou definidas Portanto o conjunto de regras desenvolvido é chamado de métrica A classificação das medidas não é única e pode ser classificada de acordo com seu nível de mensuração nominal ordinal intervalar e razão O quadro 1 ilustra os diferentes tipos de atributos e as operações estatísticas que podem ser associadas e válidas sobre eles Quadro 1 Diferentes tipos de escalas Tipo do atributo Descrição Operações Quantitativos Intervalar As diferenças para esses atributos são significativas devido a existência de uma unidade de medida Média Desvio padrão ProporcionalRazão Tanto as diferenças como as proporções são importantes Média geométrica média harmônica variação porcentual Qualitativas Nominal Valores nominais fornecem apenas informação suficiente para distinguir um objeto de outro Modo entropia correlação de contingência Ordinal Informações para ordenar objetos Medianas porcentagens Fonte Adaptado de Castro e Ferrari 2016 Voltar ao sumário 9 As classificações das escalas variam de autor para autor ou seja determinados autores consideram as classificações de acordo com o quadro 1 enquanto outros não consideram por exemplo os valores nominais como sendo possíveis de serem mensurados 121 Escala Nominal As escalas nominais são caracterizadas por níveis mais baixos de medição e são normalmente obtidas quando os objetos são classificados usando apenas atributos Nesses casos o valor do atributo é simplesmente um rótulo e qualquer conjunto de números pode ser usado para substituir o valor original desde que seja respeitada a relação única entre o valor original e o valor que será substituído Essa transformação e substituição de valores são chamadas de transformação isomórfica ou seja dado um conjunto de valores por exemplo considerando o gênero de cada pessoa feminino e masculino esses valores são identificados como 1 e 0 respectivamente Ou seja esse conjunto original será representado por 1 0 e quando convertido para 1 1 não sofrerá perda de informação ou significado pois os números têm apenas a finalidade de representar os rótulos de suas respectivas classes ou categorias122 Escala Ordinal Considerando o fato de que classes de uma variável nominal possam ser ordenadas tornase possível a relação do tipo maior do que ou menor do que entre pares de possíveis classes mutuamente exclusivas Assim como no nível de escala anteriormente citado a escala ordinal não apresenta nem origem e unidade A ordenação dos atributos só pode acontecer por meio de uma única variável Em outras palavras significa que a ordenação é feita pelo grau de satisfação com certo produto por exemplo Vamos supor que uma pesquisa busca analisar a escolaridade de determinada população e para isso entrevista habitantes de três diferentes capitais Considere os dados coletados na pesquisa Quadro 2 ao demonstrar a distribuição do nível de escolaridade de 50 pessoas Quadro 2 Distribuição de unidades amostrais por classe de Escolaridade ClasseRótulos Representação Ensino Médio 35 Ensino Superior 35 Pósgraduação 15 Mestrado 10 Doutorado 5 Fonte Elaborado pela autora 2022 Nesse exemplo cada classe apresentou os quantitativos apresentados por meio do percentual de frequência em cada classe Voltar ao sumário 10 122 Escala Intervalar Denominada escala intervalar por trabalhar com base na classificação em intervalos onde suas variáveis podem assumir valores representados por um determinado intervalo como por exemplo valores de 13 a 35 No entanto mesmo a classificação sendo discreta ou contínua quando a origem da sua escala não é fixa e o valor nulo não representa a ausência do atributo sendo medido dizse que a variável quantitativa tem escala intervalar de valores SILVA PERES BOSCARIOLI 2016 Uma escala intervalar adota as propriedades das escalas anteriores nominal e ordinal além de especificar uma determinada correspondência entre os elementos que estão sendo observados em seu domínio Notase que nessa escala que tanto a origem como a medida utilizada não são determinadas ou seja durante o processo tornase possível qualquer modificação de escala Essa alteração de escala significa que a origem deixa de ser zero e passa a ser outro valor assim como sua unidade de medida 123 Escala Proporcional ou Razão Dentre as escalas já apresentadas podese dizer que a escala proporcional é a que representa o melhor nível de mensuração quando se deseja obter conhecimento sobre determinado conjunto de objetos Seu nível de mensuração incorpora as propriedades da escala intervalar porém possibilita que relações entre os valores possam ser realizadas ou seja relações de razão e proporção entre o conjunto de objetos ATENÇÃO Diferentemente da escala intervalar que não apresenta origem e medida fixas a escala proporcional possui origem fixada em zero além de possuir uma unidade unitária de medida Nesse sentido essa escala resulta do fato que uma vez fixada sua origem qualquer medida na escala pode ser expressa através de uma razão Desse modo a única transformação de escala permitida é por meio da razão Então a diferença entre as variáveis intervalares e de razão é basicamente a existência ou não de uma origem fixa Essa diferença é justificável apenas nos procedimentos de mudança de escalas na utilização da transformação mais apropriada Os dados estão presentes em todo o processo de descoberta de conhecimento e na ciência de dados são protagonistas ou seja representado o principal componente ao qual são aplicadas as técnicas que garantem a descoberta de informações em bancos de dados não estruturados que precisam posteriormente ser lapidados Para isso processos de transformação são aplicados e você conhecerá mais sobre isso no decorrer deste componente curricular Voltar ao sumário 11 DICA Como a maioria dos dados disponíveis não é originária apenas na Internet mas sim de sistemas distribuídos que podem ser definidos em diferentes modelos e fontes esse tipo de tecnologia tem um amplo escopo de aplicação e vem dando espaço ao Big Data com o objetivo de analisar dados em grande volume As principais contribuições deste campo estão relacionadas à busca de informações mas também resulta em benefícios trazidos pela análise qualitativa e quantitativa aplicada por exemplo à mineração de texto Fontes comuns utilizadas nesse processo são as ferramentas de emails arquivos pdf doc txt páginas da web bancos de dados e até mesmo as mídias digitalizadas Visto a forma como os dados são representados fica clara a sua importância para o negócio e o processo de tomada de decisões principalmente considerando que sua estrutura permite que se tenha uma flexibilidade na análise de diferentes fontes como veremos no decorrer deste componente curricular MARÓSTICA CASTELOBRANCO MARÓSTICA 2014 Sendo assim o processo de busca automatizada a partir de grandes quantidades de dados por padrões que o olho humano não consegue reconhecer tornase possível Tudo graças à inteligência artificial aprendizado de máquina e estatísticas além de mineração e classificação de texto Figura 3 Figura 3 Reconhecimento de dados Fonte Pixabay 2022 Voltar ao sumário 12 Assim diferentes escalas e tipos de dados podem ser analisados para diferentes finalidades como detectar tendências prever resultados modelar informações para analisar o comportamento do públicoalvo ou avaliar serviços e produtos Como vimos os dados podem ser construídos em tipos e tamanhos com o objetivo principal de fornecer os recursos necessários para que grandes quantidades de dados possam ser avaliadas para que os cálculos possam ser realizados e identificar informações que não podem ser identificadas por apenas uma existência Humanidade O reconhecimento de padrões é importante para a especificação de hipóteses o pensamento de eventos a identificação de regras e associações em repositórios que armazenam milhares de informações MODELOS DE LEVANTAMENTO DE PROBLEMAS DE NEGÓCIOS ORIENTADO A DADOS 2 A ciência de dados é o estudo dos dados e das diferentes maneiras que podem ser implementadas para extrair insights significativos para os negócios através da filtragem correta de informações Este ramo se baseia em uma abordagem multidisciplinar e da combinação de princípios e práticas que relacionam diferentes áreas como a matemática estatística inteligência artificial e diferentes ramos que estão relacionados à computação para analisar grandes quantidades de dados em um ambiente heterogêneo Analise na Figura 4 a relação entre elas Figura 4 Áreas relacionada ao uso de dados Matemática e estatística Análise de dados avançadas Computação Aprendizado de máquina Estratégias de negócio Conhecimento do negócio Fonte Elaborada pela autora 2022 Voltar ao sumário 13 Sabendo disso é necessário compreender que a ciência de dados data mining funciona como um processo automático de descoberta do conhecimento em bases com grande volume de informações Os primeiros softwares para mineração foram desenvolvidos há bastante tempo por volta de 1990 para serem utilizados em ambientes acadêmicos mas claramente não eram representados por tecnologias avançadas como ocorre atualmente As informações agora são imprescindíveis para atender às necessidades do negócio Para resolver problemas com base em ferramentas que competem na análise de dados considerando principalmente a importância dada às informações e da tomada de decisões é possível implementar diferentes modelos orientados ao negócio além da possibilidade desclassificar os dados na base à qual está atribuídos através de árvores de decisão O levantamento de informações deve considerar duas fases principais aplicada sobre os dados Quadro 3 Quadro 3 Tipos de aprendizados Tipo de aprendizado Descrição Fase de aprendizado O algoritmo classificador é aplicado no conjunto de dados para teste ou treinamento que possibilita obter a construção de um classificador propriamente dito Fase de teste O classificador é utilizado para avaliar a conformidade do conjunto de dados As observações são selecionadas aleatoriamente a partir da base de dados utilizada Fonte Elaborado pela autora 2022 Para analisarmos na prática como isso funciona é necessário observar o Quadro 4 que explica que o conjunto de dados de treinamento possui dois tipos de atributos Quadro 4 Tipos de atributos Tipo de atributo Característica Atributo classe É o atributo principal que indica a qual classe pertence Atributo preditivo Os valores que serão analisados irão resultar no relacionamento com o atributo classe Fonte Elaborada pela autora 2022 Voltar ao sumário 14 21 ÁRVORE DE DECISÃO Para utilizar informações como base na análise de dados facilitando a visualização e compreensão dos resultados gerados é possível utilizar um modelo de árvore que classifica os atributos e especifica se estão de acordo com o resultado esperado Figura 4 CASTRO FERRARI 2016 Na Figura 5 podese notar as condições estabelecidas e como elas podem impulsionar decisões baseadas em um problema seus atributos e os valores representados por cada um deles Figura 5 Decisões baseadas em árvores Aceitável Inaceitável 2 4 Passageiros Atributo do problema Valores do atributo Valores da classe Fonte Adaptada de Castro e Ferrari 2016 Agora vamos idealizar um cenário em que o mesmo quadro será aplicado Imagine que você trabalha no setor de ingresso e admissão de uma escola profissionalizante que oferece treinamentos gratuitos para estudantes que queiram ingressar no mercado de trabalho buscando compreender quais são os perfis de pessoas que buscam os serviços da escola XYZ e para isso precisa coletar algumas informações básicas Entre as informações sobre os estudantes estão nome escolaridade idade condição financeira Agora ao analisar o Quadro 5 note que o atributo classe serve para apontar se o estudante possui renda familiar anual igual ou superior a 30000 Já os demais atributos do quadro nome escolaridade e idade são preditivos Como o requisito é oferecer a qualificação para estudantes de baixa renda o atributo classe é de extrema importância Voltar ao sumário 15 Quadro 5 Análise de estudantes INSCRITO ESCOLARIDADE IDADE RENDA É baixa Amanda Médio 20 Não Bernardo Graduação 20 Sim Clarice Médio 20 Não David Graduação 20 Sim Ester Fundamental 20 Não Fernando Fundamental 20 Não Gabriela Médio 20 Não Heloísa Médio 20 Não Fonte Elaborado pela autora 2022 A árvore de decisão pode ser utilizada com duas finalidades 1 previsão ação que tem o objetivo de desvendar se o item avaliado neste caso indivíduo alcança determinada função a partir das suas características e 2 descrição característica aplicada com o propósito de fornecer informações interessantes a respeito das relações entre os atributos preditivos e o atributo classe que se encontram na mesma base de dados Importante Mas se o aluno não está declarando a sua renda seria possível identificar padrões e chegar à conclusão de o seu perfil ser ou não elegível às vagas considerando apenas as demais informações O sistema será inteligente o bastante para montar um modelo capaz de analisar apenas os dados fornecidos e tomar a decisão de classificação dos inscritos considerando suas informações cadastrais Para garantir que um modelo seja capaz de levantar informações e tornálas relevante é necessário considerar um conjunto de dados de teste que representa a conformidade das informações No entanto para determinar a eficiência do modelo deve ser considerada a porcentagem de observações de testes que serão classificadas por ele de maneira correta Ao aplicar a árvore de decisão um dos recursos mais utilizados pelos softwares de mineração de dados é possível obter uma representação intuitiva da classificação e garantir uma interpretação simples Que tal visualizar os dados da tabela Veja a Figura 6 Voltar ao sumário 16 Figura 6 Tomada de decisões com base em dados Não Sim Graduação Ens Fundamental Escolaridade Não Sim 30 30 Idade Fonte Elaborada pela autora 2022 Antes de continuarmos conhecendo sobre as técnicas de levantamento de informações e diferentes métodos que permitem construir soluções com base na ciência de dados vamos finalizar nosso raciocínio sobre as árvores de decisão analisando a Figura 7 que resume o que foi estudado até aqui Figura 7 Componentes de uma árvore de decisão Cada nó representa um teste em um atributo preditivo para indicar se o estudante está ou não dentro de determinada condição Cada folha da árvore é um atributo selecionado para dividir o conjunto de treinamento em classes com base em observações Uma ramificação inicia em um nó interno e representa um resultado por cada teste Exemplo Escolaridade Graduação mais provável de ter a renda acima do intervalo estabelecido Novas observações podem ser adicionadas ao seguir o caminho da árvore da raiz até as folhas Fonte Elaborada pela autora 2022 22 PROBLEMAS QUE ENVOLVEM O LEVANTAMENTO DE INFORMAÇÕES Ao analisar o cenário podemos nos deparar com alguns problemas relacionados com o levantamento de dados e entre o principal deles está a ausência de valores De acordo com Silva Peres e Boscarioli 2016 é comum que ao analisar dados principalmente relacionados aos dados que precisam ser coletados através de determinada pesquisa alguns valores estejam incompletos Quando os campos não são obrigatórios é possível que se note a ausência de valores em determinados pontos da base de dados afetando assim o resultado esperado Por exemplo em um formulário que foi criado para realizar o levantamento de preços praticados pela concorrência onde nem todos os produtos correspondem ao catálogo das duas organizações a serem comparadas gerando falta da informação e consequentemente tornando o resultado prejudicado ou nulo Voltar ao sumário 17 Para tanto os autores Silva Peres e Boscarioli 2016 apontam algumas soluções para casos como estes Remoção de valores ausentes esta é uma solução muito simples mas não funciona bem principalmente se a quantidade de dados for pequena ou ocorrerem valores ausentes com frequência Preenchimento manual de valores quando a coleta de dados pode ser realizada manualmente e ajustada no contexto por um especialista se necessário o valor correto pode ser encontrado para uma determinada propriedade de uma determinada instância no entanto quando o número de valores ausentes é grande também se torna inviável e corre o risco de impor vieses aos dados ou ter conhecimento limitado dos dados Preenchimento automático de valores o preenchimento automático pode ser feito estabelecendo um valor constante o atributo relacionado mais comum no conjunto de dados analisado valor médio ou mediano levando em consideração outros valores presentes no atributo relacionado e o modelo que está sendo aplicado para solução de problemas assim como os requisitos estabelecidos 23 MINERAÇÃO DE TEXTOS Considerando que diferentes formatos de dados podem ser analisados a fim de que as informações sejam utilizadas em um modelo orientado a dados não podemos deixar de mencionar sobre a mineração de texto Nas palavras dos autores Silva Peres e Boscarioli 2016 os dados não estruturados também podem ser utilizados para representar o valor das informações porém sua preparação ocorre de maneira diferente já que é necessária preparação prévia Entre os tipos de dados não estruturados estão os do tipo texto Já os autores Castro e Ferrari 2016 descreve que além de estar entre uma das técnicas que permite levantar informações para tomada de decisões estratégicas a classificação de texto permite buscar dados de um ou mais documentos rotulálos e analisálos A este processo dáse o nome de análise de sentimentos ou mineração de opinião No contexto da Mineração de dados a subcategoria de mineração de Textos representa uma técnica útil principalmente em cenários onde ocorre o processamento de dados em grande escala com o principal objetivo de extrair informações relevantes e obter dados que possam apoiar um processo de tomada de decisão assim como as demais técnicas abordadas neste circuito Voltar ao sumário 18 Figura 8 Mapa de possibilidades Extração de padrões relacionados com a área de interesse em documentos textuais Uso de meios computacionais para explorar de documentos de textos não estruturados Aplicação de princípios da linguística computacional Análise de recursos que não tenham as mesmas características encontradas em Sistemas Gerenciadores de Bancos de Dados SGBD Fonte Elaborada pela autora 2022 Portanto é possível identificar aspectos ocultos e arrecadar informações relevantes a partir da consulta ao aplicar técnicas de extração de dados e processamento de linguagem natural PLN Para que isso seja possível é necessário realizar a combinação entre os recursos oferecidos pela mineração de dados o aprendizado de máquina e as medidas aplicadas por meio de estatística Na análise de dados em muitos casos precisamos utilizar variáveis do tipo texto tipicamente utilizadas para fins classificatórios ou categóricos Considerando a necessidade de classificar produtos ou serviços de um site por exemplo pode existir a necessidade de definir se ele é defeituoso ou não defeituoso Lembrese de analisar com base em tipos de dados nominais Pode ser aplicado à mineração de texto para facilitar a compreensão das informações coletadas Isso porque não há propriedades relacionadas à ordem dos valores na escala nominal nem de onde eles vêm qualquer unidade de distância entre as possíveis classes de atributos que se tenta definir não tem sentido Voltar ao sumário 19 ATENÇÃO Estamos atualmente sendo movidos por processos que envolvem a coleta de dados posteriormente aplicados a determinado processo Porém ainda devemos prezar pela segurança e confiabilidade das informações principalmente pelo que elas representam dentro das organizações Para isso as informações precisam ser constantemente atualizadas e serem confiáveis consequentemente filtrar e tratar as informações corretamente é o que define o quanto os registros coletados serão uteis em determinado cenário Será que é devido à ciência de dados e a transformação tecnológica que se torna possível realizarem tarefas minuciosas Além disso é possível que ao mesmo tempo estejamos tendo agilidade para a realização de análises de negócios apenas considerando informações relevantes De forma geral a ciência de dados é o processo de busca automática em grandes quantidades de dados por meio de padrões que são irreconhecíveis ao olho humano Dentro do mesmo contexto são aplicadas técnicas relacionadas com a inteligência artificial aprendizado de máquina e estatísticas além de mineração e classificação de texto É necessário considerar a criticidade no processo de levantamento de informações e em todas as etapas desde o préprocessamento de dados isso porque para categorizar dados com base em classes ou similaridades as informações precisam estar estruturadas e acima de tudo bem definidas considerando não somente os métodos aplicados mas também o nível de conhecimento que se tem em relação à base de dados Para realizar a análise de dados a técnica deve ser selecionada corretamente para garantir que se possa obter o melhor resultado A escolha da ferramenta e dos recursos oferecidos também é importante Concluise que os dados podem ser analisados para diferentes propósitos desde a necessidade de detectar tendências prever resultados modelar informações e até mesmo para analisar o comportamento do públicoalvo serviços e produtos Portanto sua utilidade está presente em diferentes áreas e segmentos do mercado Voltar ao sumário 20 RESUMO DO PERCURSO DE APRENDIZAGEM Há milhares de informações sendo processadas diariamente dados de diferentes tipos e provenientes de aplicações com plataformas diversas adaptadas para que se possa visualizar o progresso da organização e gerar valor ao negócio As mudanças ocorrem rapidamente e são muitas ou quase todas as organizações que adotaram a análise de dados para suas operações processos de fabricação e gestão do negócio No contexto da ciência de dados as informações são importantes para processos que envolvem o desempenho da organização o relacionamento do cliente e até mesmo campanhas de marketing Porém independente no campo ao qual a análise de dados é aplicada é necessário estar atento há como o fluxo de trabalho é conduzido adaptando os processos ao resultado esperado e tornando a estrutura de dados base essencial para os negócios Todavia o processo é complexo e exige conhecimento e o uso adequado de ferramentas já que devido ao grande volume de dados gerados e coletados criar vantagens competitivas tornase um desafio que exige a exploração correta dos dados Pensando na qualidade dos dados os profissionais envolvidos nas atividades de análise de dados como os cientistas e analistas precisam desenvolver habilidades estatísticas e tornaremse contadores de histórias A comunicação entre as áreas de negócio e tecnologia é importante para reunir dados e definir quais deles são relevantes para a tomada de decisão Por mais que as ferramentas sejam imprescindíveis por serem os profissionais elementos importantes estruturar o pensamento analítico é importante e pode ser um ponto forte na hora de identificar oportunidades e compreender quais são as principais ameaças competitivas e como as rotinas orientadas a dados podem auxiliar nas estratégias mapeadas A inteligência do negócio é a chave para a geração de valor e o aprendizado que se transforma sob os dados A análise preditiva e todos os elementos que estudamos durante este componente curricular são importantes para prover soluções efetivas e agregar a partir da mineração de dados Com todas as transformações O mercado não é mais o mesmo a área de Big Data e ciência de dados fazem parte da realidade corporativa e estar à frente dos negócios exige inserir práticas e métodos de análises de dados de pontaaponta Voltar ao sumário 21 REFERÊNCIAS CASTRO L N FERRARI D G Introdução à mineração de dados conceitos básicos al goritmos e aplicações São Paulo Saraiva 2016 MARÓSTICA E CASTELOBRANCO V R MARÓSTICA N A C Inteligência de mercado São Paulo Cengage Learning 2014 SILVA L A PERES S M BOSCARIOLI C Introdução à mineração de dados com apli cações em R Rio de Janeiro Elsevier 2016 Voltar ao sumário 22 UNIVERSIDADE DE FORTALEZA UNIFOR Presidência Lenise Queiroz Rocha VicePresidência Manoela Queiroz Bacelar Reitoria Fátima Maria Fernandes Veras ViceReitoria de Ensino de Graduação e PósGraduação Maria Clara Cavalcante Bugarim ViceReitoria de Pesquisa José Milton de Sousa Filho ViceReitoria de Extensão Randal Martins Pompeu ViceReitoria de Administração José Maria Gondim Felismino Júnior Diretoria de Comunicação e Marketing Ana Leopoldina M Quezado V Vale Diretoria de Planejamento Marcelo Nogueira Magalhães Diretoria de Tecnologia José Eurico de Vasconcelos Filho Diretoria do Centro de Ciências da Comunicação e Gestão Danielle Batista Coimbra Diretoria do Centro de Ciências da Saúde Lia Maria Brasil de Souza Barroso Diretoria do Centro de Ciências Jurídicas Katherinne de Macêdo Maciel Mihaliuc Diretoria do Centro de Ciências Tecnológicas Jackson Sávio de Vasconcelos Silva AUTOR TIAGO SANTOS COLLIRI Possui doutorado em Ciência da Computação mestrado em Modelagem Computacional e graduação em Administração de Empresas todos pela Universidade de São Paulo USP Trabalhou por cerca de 9 anos nas áreas financeira e de tecnologia da informação com destaque para implementação de sistemas na área de tesouraria Também possui experiência com modelagem de dados simulação e aprendizado de máquina machine learning RESPONSABILIDADE TÉCNICA COORDENAÇÃO DA EDUCAÇÃO A DISTÂNCIA Coordenação Geral de EAD Douglas Royer Coordenação de Ensino e Recursos EAD Andrea Chagas Alves de Almeida Supervisão de Planejamento Educacional Ana Flávia Beviláqua Melo Supervisão de Recursos EAD Francisco Weslley Lima Supervisão de Operações e Atendimento Mírian Cristina de Lima Analista Educacional Lara Meneses Saldanha Nepomuceno Projeto Instrucional Francisca Vânia dos Santos Ana Lucia do Nascimento Maria Mirislene Vasconcelos Revisão Gramatical Janaína de Mesquita Bezerra José Ferreira Silva Bastos Identidade Visual Arte Francisco Cristiano Lopes de Sousa Editoração Diagramação Emanoel Alves Cavalcante Rafael Oliveira de Souza Régis da Silva Pereira Produção de Áudio e Vídeo José Moreira de Sousa Pedro Henrique de Moura Mendes Programação Implementação Márcio Gurgel Pinto Dias Renan Alves Diniz
Envie sua pergunta para a IA e receba a resposta na hora
Recomendado para você
Texto de pré-visualização
CIÊNCIAS DE DADOS APLICADOS À GESTÃO PERCURSO DE APRENDIZAGEM 2 Este trabalho está licenciado com uma Licença Creative Commons AtribuiçãoNãoComercialSemDerivações 40 Internacional Sumário clicável INTELIGÊNCIA DE NEGÓCIOS Sumário Contexto dos dados 1 Modelos de levantamento de problemas de negócios 2 orientado a dados Voltar ao sumário 4 Quando falamos em dados ainda estamos tratando da forma bruta de representação uma vez que os dados ainda não foram lapidados para transformarse em informação Contudo necessita passar pelo processo completo de transformação para que de fato gere um valor para o negócio No entanto os dados envolvem certa complexidade e podem ser classificados de acordo com seu tipo escala e formatos principalmente na mineração de dados e ciência onde representam grande impacto na resolução de problemas Para conhecer os conceitos acerca da análise de dados manipulação e estatística é necessário compreender as diferentes aplicações que os dados nos permitem Neste percurso iremos tratar desde conceitos simples até a aplicação dos dados e sua efetividade no levantamento e resolução de problemas que envolvem os negócios Olá Voltar ao sumário 5 CONTEXTO DOS DADOS 1 INTRODUÇÃO Dados podem ser definidos como valores que são atribuídos à determinado objeto ou seja valores que representam uma determinada característica como por exemplo a cor do cabelo de Ana Neste caso o valor do dado seria representado pela cor do cabelo que pode receber diferentes valores preto castanho loiro e ruivo Assim entendese que esses valores não necessariamente precisam ser numéricos mas também podem representar posições em um mapa específico No entanto por mais que os dados possam ser representados de diferentes formas valores posições conceitos independentemente de como isso ocorra os dados sempre serão medidos ou mensurados por meio de um instrumento de medida ou então atribuídos de forma aleatória o que depende principalmente do cenário e do problema que está sendo analisado Em virtude de suas características básicas os dados são fundamentais em diferentes áreas e tratandose de aplicações que envolvam técnicas de inteligência artificial e ciência de dados principalmente A cada dia os dados tornamse ainda mais relevantes uma vez que determinam o processo inteiro sobre a construção de uma aplicação e a capacidade necessária para ler as informações transformar e visualizar Sob essa perspectiva entendese que o tipo dos dados é um fator determinante para definição de técnicas e ferramentas a serem utilizadas na análise de dados e o objetivo da inteligência na organização é transformar os dados em informações estruturas e estratégicas para alcançar vantagem competitiva MARÓSTICA CASTELOBRANCO ARÓSTICA 2014 11 TIPO DE DADOS Os tipos de dados definem principalmente as características que um conjunto de dados deve ter e como eles podem ser vistos pois podem ser denominados coleção de objetos de dados Sendo que esses objetos também apresentam denominações como registros vetores padrões exemplos observações ou entidades Figura 1 Voltar ao sumário 6 Figura 1 Manipulação de dados Fonte Freepik 2022 Independentemente da nomenclatura que os define os objetos de dados geralmente são descritos por um conjunto de atributos que capturam os principais atributos de um determinado objeto como a massa do objeto real ou a hora em que o evento aconteceu Outros nomes também são usados para atributos como variáveis funções atributos ou dimensões Uma propriedade é portanto definida como uma propriedade ou propriedade de um objeto que pode mudar de um objeto para outro ou de tempos em tempos No nível mais básico os atributos não têm relação com números ou símbolos mas são atribuídos a eles para que as características de um conjunto de objetos de dados possam ser analisadas com mais precisão E para realizar este processo de forma muito clara e definida considerase a utilização de uma escala de metrologia Por escala de medida entendemos uma regra que visa associar um valor numérico ou simbólico a um atributo específico do objeto Em outras palavras o processo de pulverização tornase a aplicação de uma escala de medição associada a um determinado atributo de um determinado objeto O tipo de atributo permite relatar quais de suas propriedades têm impacto nos valores usados para medilo Assim conhecer o tipo de um atributo é fundamental pois permite entender quais propriedades dos valores medidos são consistentes com as propriedades correspondentes dos atributos e garante a redução de falhas no processo de medição desde erros de cálculo com atributos incorretos Para compreender a essência dos dados devemos antes classificar os tipos de atributos conforme ilustra a Figura 2 Voltar ao sumário 7 Figura 2 Tipos de atributos Nominal Ordinal Qualitativos Binário Numérico Simétrico Assimétrico Discreto Quantitativos Contínuo Fonte Elaborada pela autora 2022 De forma prática os atributos são caracterizados da seguinte forma Atributos qualitativos Nominal nomes símbolos representação de categorias não ordenados Ordinal consideram a definição através de um grau previamente definido Um exemplo é a representação de escolaridade 1º 2º e 3º grau Binários podem atribuir dois valores 1 ou 0 respectivamente sendo também representados por verdadeiro ou falso Podem ser classificados como simétrico valores igualmente importantes gênero ou assimétricos representando um resultado através de valores que não são igualmente importantes Atributos quantitativos Numérico quantidade mensurável que pode ser representada através de valores inteiros ou reais Discreto podem ser obtidos através de valores finitos Contínuo consideram um número infinito de estados sendo do tipo flutuante uma vez que representam valores que se localizam entre outros Por exemplo todos os números que se encontram entre 2 e 3 De acordo com Maróstica CasteloBranco Maróstica 2014 o principal objetivo da inteligência tecnológica está em garantir que os sistemas atuais sejam capazes de extrair dados otimizando as estratégias de negócio e eliminando gradativamente os bancos de dados tradicionais Voltar ao sumário 8 Já de acordo com Castro e Ferrari 2016 apesar da forma definida como os dados são classificados e organizados é possível que os dados passem por inconsistência uma vez que tanto os dados como os atributos podem ser representados incorretamente devidos à forma como são representados em diferentes sistemas Imagine que você construiu uma base de dados para definir o públicoalvo de um parque de diversões onde a idade deve ser controlada mas diferentes pessoas que inserem as informações determinam os valores como criança infantil ou menor para o mesmo caso o que acaba gerando uma inconsistência e dificuldade no controle de dados Já na ciência de dados algoritmos trazem formas eficientes de resolver problemas como estes 12 ESCALAS DE DADOS Inicialmente é necessário entender as escalas e depois aplicálas a diferentes tipos Diante disso quando uma origem e uma medida são anexadas a ela uma escala pode ser determinada Considerando o conceito matemático a origem geralmente é fixada em zero e as unidades são expressas de uma única forma Em estatística por outro lado a origem de uma escala pode ser centrada em torno da média enquanto as unidades são estabelecidas como desvios de sua média Portanto a associação de números com propriedades características do objeto deve seguir algumas regras préestabelecidas eou definidas Portanto o conjunto de regras desenvolvido é chamado de métrica A classificação das medidas não é única e pode ser classificada de acordo com seu nível de mensuração nominal ordinal intervalar e razão O quadro 1 ilustra os diferentes tipos de atributos e as operações estatísticas que podem ser associadas e válidas sobre eles Quadro 1 Diferentes tipos de escalas Tipo do atributo Descrição Operações Quantitativos Intervalar As diferenças para esses atributos são significativas devido a existência de uma unidade de medida Média Desvio padrão ProporcionalRazão Tanto as diferenças como as proporções são importantes Média geométrica média harmônica variação porcentual Qualitativas Nominal Valores nominais fornecem apenas informação suficiente para distinguir um objeto de outro Modo entropia correlação de contingência Ordinal Informações para ordenar objetos Medianas porcentagens Fonte Adaptado de Castro e Ferrari 2016 Voltar ao sumário 9 As classificações das escalas variam de autor para autor ou seja determinados autores consideram as classificações de acordo com o quadro 1 enquanto outros não consideram por exemplo os valores nominais como sendo possíveis de serem mensurados 121 Escala Nominal As escalas nominais são caracterizadas por níveis mais baixos de medição e são normalmente obtidas quando os objetos são classificados usando apenas atributos Nesses casos o valor do atributo é simplesmente um rótulo e qualquer conjunto de números pode ser usado para substituir o valor original desde que seja respeitada a relação única entre o valor original e o valor que será substituído Essa transformação e substituição de valores são chamadas de transformação isomórfica ou seja dado um conjunto de valores por exemplo considerando o gênero de cada pessoa feminino e masculino esses valores são identificados como 1 e 0 respectivamente Ou seja esse conjunto original será representado por 1 0 e quando convertido para 1 1 não sofrerá perda de informação ou significado pois os números têm apenas a finalidade de representar os rótulos de suas respectivas classes ou categorias122 Escala Ordinal Considerando o fato de que classes de uma variável nominal possam ser ordenadas tornase possível a relação do tipo maior do que ou menor do que entre pares de possíveis classes mutuamente exclusivas Assim como no nível de escala anteriormente citado a escala ordinal não apresenta nem origem e unidade A ordenação dos atributos só pode acontecer por meio de uma única variável Em outras palavras significa que a ordenação é feita pelo grau de satisfação com certo produto por exemplo Vamos supor que uma pesquisa busca analisar a escolaridade de determinada população e para isso entrevista habitantes de três diferentes capitais Considere os dados coletados na pesquisa Quadro 2 ao demonstrar a distribuição do nível de escolaridade de 50 pessoas Quadro 2 Distribuição de unidades amostrais por classe de Escolaridade ClasseRótulos Representação Ensino Médio 35 Ensino Superior 35 Pósgraduação 15 Mestrado 10 Doutorado 5 Fonte Elaborado pela autora 2022 Nesse exemplo cada classe apresentou os quantitativos apresentados por meio do percentual de frequência em cada classe Voltar ao sumário 10 122 Escala Intervalar Denominada escala intervalar por trabalhar com base na classificação em intervalos onde suas variáveis podem assumir valores representados por um determinado intervalo como por exemplo valores de 13 a 35 No entanto mesmo a classificação sendo discreta ou contínua quando a origem da sua escala não é fixa e o valor nulo não representa a ausência do atributo sendo medido dizse que a variável quantitativa tem escala intervalar de valores SILVA PERES BOSCARIOLI 2016 Uma escala intervalar adota as propriedades das escalas anteriores nominal e ordinal além de especificar uma determinada correspondência entre os elementos que estão sendo observados em seu domínio Notase que nessa escala que tanto a origem como a medida utilizada não são determinadas ou seja durante o processo tornase possível qualquer modificação de escala Essa alteração de escala significa que a origem deixa de ser zero e passa a ser outro valor assim como sua unidade de medida 123 Escala Proporcional ou Razão Dentre as escalas já apresentadas podese dizer que a escala proporcional é a que representa o melhor nível de mensuração quando se deseja obter conhecimento sobre determinado conjunto de objetos Seu nível de mensuração incorpora as propriedades da escala intervalar porém possibilita que relações entre os valores possam ser realizadas ou seja relações de razão e proporção entre o conjunto de objetos ATENÇÃO Diferentemente da escala intervalar que não apresenta origem e medida fixas a escala proporcional possui origem fixada em zero além de possuir uma unidade unitária de medida Nesse sentido essa escala resulta do fato que uma vez fixada sua origem qualquer medida na escala pode ser expressa através de uma razão Desse modo a única transformação de escala permitida é por meio da razão Então a diferença entre as variáveis intervalares e de razão é basicamente a existência ou não de uma origem fixa Essa diferença é justificável apenas nos procedimentos de mudança de escalas na utilização da transformação mais apropriada Os dados estão presentes em todo o processo de descoberta de conhecimento e na ciência de dados são protagonistas ou seja representado o principal componente ao qual são aplicadas as técnicas que garantem a descoberta de informações em bancos de dados não estruturados que precisam posteriormente ser lapidados Para isso processos de transformação são aplicados e você conhecerá mais sobre isso no decorrer deste componente curricular Voltar ao sumário 11 DICA Como a maioria dos dados disponíveis não é originária apenas na Internet mas sim de sistemas distribuídos que podem ser definidos em diferentes modelos e fontes esse tipo de tecnologia tem um amplo escopo de aplicação e vem dando espaço ao Big Data com o objetivo de analisar dados em grande volume As principais contribuições deste campo estão relacionadas à busca de informações mas também resulta em benefícios trazidos pela análise qualitativa e quantitativa aplicada por exemplo à mineração de texto Fontes comuns utilizadas nesse processo são as ferramentas de emails arquivos pdf doc txt páginas da web bancos de dados e até mesmo as mídias digitalizadas Visto a forma como os dados são representados fica clara a sua importância para o negócio e o processo de tomada de decisões principalmente considerando que sua estrutura permite que se tenha uma flexibilidade na análise de diferentes fontes como veremos no decorrer deste componente curricular MARÓSTICA CASTELOBRANCO MARÓSTICA 2014 Sendo assim o processo de busca automatizada a partir de grandes quantidades de dados por padrões que o olho humano não consegue reconhecer tornase possível Tudo graças à inteligência artificial aprendizado de máquina e estatísticas além de mineração e classificação de texto Figura 3 Figura 3 Reconhecimento de dados Fonte Pixabay 2022 Voltar ao sumário 12 Assim diferentes escalas e tipos de dados podem ser analisados para diferentes finalidades como detectar tendências prever resultados modelar informações para analisar o comportamento do públicoalvo ou avaliar serviços e produtos Como vimos os dados podem ser construídos em tipos e tamanhos com o objetivo principal de fornecer os recursos necessários para que grandes quantidades de dados possam ser avaliadas para que os cálculos possam ser realizados e identificar informações que não podem ser identificadas por apenas uma existência Humanidade O reconhecimento de padrões é importante para a especificação de hipóteses o pensamento de eventos a identificação de regras e associações em repositórios que armazenam milhares de informações MODELOS DE LEVANTAMENTO DE PROBLEMAS DE NEGÓCIOS ORIENTADO A DADOS 2 A ciência de dados é o estudo dos dados e das diferentes maneiras que podem ser implementadas para extrair insights significativos para os negócios através da filtragem correta de informações Este ramo se baseia em uma abordagem multidisciplinar e da combinação de princípios e práticas que relacionam diferentes áreas como a matemática estatística inteligência artificial e diferentes ramos que estão relacionados à computação para analisar grandes quantidades de dados em um ambiente heterogêneo Analise na Figura 4 a relação entre elas Figura 4 Áreas relacionada ao uso de dados Matemática e estatística Análise de dados avançadas Computação Aprendizado de máquina Estratégias de negócio Conhecimento do negócio Fonte Elaborada pela autora 2022 Voltar ao sumário 13 Sabendo disso é necessário compreender que a ciência de dados data mining funciona como um processo automático de descoberta do conhecimento em bases com grande volume de informações Os primeiros softwares para mineração foram desenvolvidos há bastante tempo por volta de 1990 para serem utilizados em ambientes acadêmicos mas claramente não eram representados por tecnologias avançadas como ocorre atualmente As informações agora são imprescindíveis para atender às necessidades do negócio Para resolver problemas com base em ferramentas que competem na análise de dados considerando principalmente a importância dada às informações e da tomada de decisões é possível implementar diferentes modelos orientados ao negócio além da possibilidade desclassificar os dados na base à qual está atribuídos através de árvores de decisão O levantamento de informações deve considerar duas fases principais aplicada sobre os dados Quadro 3 Quadro 3 Tipos de aprendizados Tipo de aprendizado Descrição Fase de aprendizado O algoritmo classificador é aplicado no conjunto de dados para teste ou treinamento que possibilita obter a construção de um classificador propriamente dito Fase de teste O classificador é utilizado para avaliar a conformidade do conjunto de dados As observações são selecionadas aleatoriamente a partir da base de dados utilizada Fonte Elaborado pela autora 2022 Para analisarmos na prática como isso funciona é necessário observar o Quadro 4 que explica que o conjunto de dados de treinamento possui dois tipos de atributos Quadro 4 Tipos de atributos Tipo de atributo Característica Atributo classe É o atributo principal que indica a qual classe pertence Atributo preditivo Os valores que serão analisados irão resultar no relacionamento com o atributo classe Fonte Elaborada pela autora 2022 Voltar ao sumário 14 21 ÁRVORE DE DECISÃO Para utilizar informações como base na análise de dados facilitando a visualização e compreensão dos resultados gerados é possível utilizar um modelo de árvore que classifica os atributos e especifica se estão de acordo com o resultado esperado Figura 4 CASTRO FERRARI 2016 Na Figura 5 podese notar as condições estabelecidas e como elas podem impulsionar decisões baseadas em um problema seus atributos e os valores representados por cada um deles Figura 5 Decisões baseadas em árvores Aceitável Inaceitável 2 4 Passageiros Atributo do problema Valores do atributo Valores da classe Fonte Adaptada de Castro e Ferrari 2016 Agora vamos idealizar um cenário em que o mesmo quadro será aplicado Imagine que você trabalha no setor de ingresso e admissão de uma escola profissionalizante que oferece treinamentos gratuitos para estudantes que queiram ingressar no mercado de trabalho buscando compreender quais são os perfis de pessoas que buscam os serviços da escola XYZ e para isso precisa coletar algumas informações básicas Entre as informações sobre os estudantes estão nome escolaridade idade condição financeira Agora ao analisar o Quadro 5 note que o atributo classe serve para apontar se o estudante possui renda familiar anual igual ou superior a 30000 Já os demais atributos do quadro nome escolaridade e idade são preditivos Como o requisito é oferecer a qualificação para estudantes de baixa renda o atributo classe é de extrema importância Voltar ao sumário 15 Quadro 5 Análise de estudantes INSCRITO ESCOLARIDADE IDADE RENDA É baixa Amanda Médio 20 Não Bernardo Graduação 20 Sim Clarice Médio 20 Não David Graduação 20 Sim Ester Fundamental 20 Não Fernando Fundamental 20 Não Gabriela Médio 20 Não Heloísa Médio 20 Não Fonte Elaborado pela autora 2022 A árvore de decisão pode ser utilizada com duas finalidades 1 previsão ação que tem o objetivo de desvendar se o item avaliado neste caso indivíduo alcança determinada função a partir das suas características e 2 descrição característica aplicada com o propósito de fornecer informações interessantes a respeito das relações entre os atributos preditivos e o atributo classe que se encontram na mesma base de dados Importante Mas se o aluno não está declarando a sua renda seria possível identificar padrões e chegar à conclusão de o seu perfil ser ou não elegível às vagas considerando apenas as demais informações O sistema será inteligente o bastante para montar um modelo capaz de analisar apenas os dados fornecidos e tomar a decisão de classificação dos inscritos considerando suas informações cadastrais Para garantir que um modelo seja capaz de levantar informações e tornálas relevante é necessário considerar um conjunto de dados de teste que representa a conformidade das informações No entanto para determinar a eficiência do modelo deve ser considerada a porcentagem de observações de testes que serão classificadas por ele de maneira correta Ao aplicar a árvore de decisão um dos recursos mais utilizados pelos softwares de mineração de dados é possível obter uma representação intuitiva da classificação e garantir uma interpretação simples Que tal visualizar os dados da tabela Veja a Figura 6 Voltar ao sumário 16 Figura 6 Tomada de decisões com base em dados Não Sim Graduação Ens Fundamental Escolaridade Não Sim 30 30 Idade Fonte Elaborada pela autora 2022 Antes de continuarmos conhecendo sobre as técnicas de levantamento de informações e diferentes métodos que permitem construir soluções com base na ciência de dados vamos finalizar nosso raciocínio sobre as árvores de decisão analisando a Figura 7 que resume o que foi estudado até aqui Figura 7 Componentes de uma árvore de decisão Cada nó representa um teste em um atributo preditivo para indicar se o estudante está ou não dentro de determinada condição Cada folha da árvore é um atributo selecionado para dividir o conjunto de treinamento em classes com base em observações Uma ramificação inicia em um nó interno e representa um resultado por cada teste Exemplo Escolaridade Graduação mais provável de ter a renda acima do intervalo estabelecido Novas observações podem ser adicionadas ao seguir o caminho da árvore da raiz até as folhas Fonte Elaborada pela autora 2022 22 PROBLEMAS QUE ENVOLVEM O LEVANTAMENTO DE INFORMAÇÕES Ao analisar o cenário podemos nos deparar com alguns problemas relacionados com o levantamento de dados e entre o principal deles está a ausência de valores De acordo com Silva Peres e Boscarioli 2016 é comum que ao analisar dados principalmente relacionados aos dados que precisam ser coletados através de determinada pesquisa alguns valores estejam incompletos Quando os campos não são obrigatórios é possível que se note a ausência de valores em determinados pontos da base de dados afetando assim o resultado esperado Por exemplo em um formulário que foi criado para realizar o levantamento de preços praticados pela concorrência onde nem todos os produtos correspondem ao catálogo das duas organizações a serem comparadas gerando falta da informação e consequentemente tornando o resultado prejudicado ou nulo Voltar ao sumário 17 Para tanto os autores Silva Peres e Boscarioli 2016 apontam algumas soluções para casos como estes Remoção de valores ausentes esta é uma solução muito simples mas não funciona bem principalmente se a quantidade de dados for pequena ou ocorrerem valores ausentes com frequência Preenchimento manual de valores quando a coleta de dados pode ser realizada manualmente e ajustada no contexto por um especialista se necessário o valor correto pode ser encontrado para uma determinada propriedade de uma determinada instância no entanto quando o número de valores ausentes é grande também se torna inviável e corre o risco de impor vieses aos dados ou ter conhecimento limitado dos dados Preenchimento automático de valores o preenchimento automático pode ser feito estabelecendo um valor constante o atributo relacionado mais comum no conjunto de dados analisado valor médio ou mediano levando em consideração outros valores presentes no atributo relacionado e o modelo que está sendo aplicado para solução de problemas assim como os requisitos estabelecidos 23 MINERAÇÃO DE TEXTOS Considerando que diferentes formatos de dados podem ser analisados a fim de que as informações sejam utilizadas em um modelo orientado a dados não podemos deixar de mencionar sobre a mineração de texto Nas palavras dos autores Silva Peres e Boscarioli 2016 os dados não estruturados também podem ser utilizados para representar o valor das informações porém sua preparação ocorre de maneira diferente já que é necessária preparação prévia Entre os tipos de dados não estruturados estão os do tipo texto Já os autores Castro e Ferrari 2016 descreve que além de estar entre uma das técnicas que permite levantar informações para tomada de decisões estratégicas a classificação de texto permite buscar dados de um ou mais documentos rotulálos e analisálos A este processo dáse o nome de análise de sentimentos ou mineração de opinião No contexto da Mineração de dados a subcategoria de mineração de Textos representa uma técnica útil principalmente em cenários onde ocorre o processamento de dados em grande escala com o principal objetivo de extrair informações relevantes e obter dados que possam apoiar um processo de tomada de decisão assim como as demais técnicas abordadas neste circuito Voltar ao sumário 18 Figura 8 Mapa de possibilidades Extração de padrões relacionados com a área de interesse em documentos textuais Uso de meios computacionais para explorar de documentos de textos não estruturados Aplicação de princípios da linguística computacional Análise de recursos que não tenham as mesmas características encontradas em Sistemas Gerenciadores de Bancos de Dados SGBD Fonte Elaborada pela autora 2022 Portanto é possível identificar aspectos ocultos e arrecadar informações relevantes a partir da consulta ao aplicar técnicas de extração de dados e processamento de linguagem natural PLN Para que isso seja possível é necessário realizar a combinação entre os recursos oferecidos pela mineração de dados o aprendizado de máquina e as medidas aplicadas por meio de estatística Na análise de dados em muitos casos precisamos utilizar variáveis do tipo texto tipicamente utilizadas para fins classificatórios ou categóricos Considerando a necessidade de classificar produtos ou serviços de um site por exemplo pode existir a necessidade de definir se ele é defeituoso ou não defeituoso Lembrese de analisar com base em tipos de dados nominais Pode ser aplicado à mineração de texto para facilitar a compreensão das informações coletadas Isso porque não há propriedades relacionadas à ordem dos valores na escala nominal nem de onde eles vêm qualquer unidade de distância entre as possíveis classes de atributos que se tenta definir não tem sentido Voltar ao sumário 19 ATENÇÃO Estamos atualmente sendo movidos por processos que envolvem a coleta de dados posteriormente aplicados a determinado processo Porém ainda devemos prezar pela segurança e confiabilidade das informações principalmente pelo que elas representam dentro das organizações Para isso as informações precisam ser constantemente atualizadas e serem confiáveis consequentemente filtrar e tratar as informações corretamente é o que define o quanto os registros coletados serão uteis em determinado cenário Será que é devido à ciência de dados e a transformação tecnológica que se torna possível realizarem tarefas minuciosas Além disso é possível que ao mesmo tempo estejamos tendo agilidade para a realização de análises de negócios apenas considerando informações relevantes De forma geral a ciência de dados é o processo de busca automática em grandes quantidades de dados por meio de padrões que são irreconhecíveis ao olho humano Dentro do mesmo contexto são aplicadas técnicas relacionadas com a inteligência artificial aprendizado de máquina e estatísticas além de mineração e classificação de texto É necessário considerar a criticidade no processo de levantamento de informações e em todas as etapas desde o préprocessamento de dados isso porque para categorizar dados com base em classes ou similaridades as informações precisam estar estruturadas e acima de tudo bem definidas considerando não somente os métodos aplicados mas também o nível de conhecimento que se tem em relação à base de dados Para realizar a análise de dados a técnica deve ser selecionada corretamente para garantir que se possa obter o melhor resultado A escolha da ferramenta e dos recursos oferecidos também é importante Concluise que os dados podem ser analisados para diferentes propósitos desde a necessidade de detectar tendências prever resultados modelar informações e até mesmo para analisar o comportamento do públicoalvo serviços e produtos Portanto sua utilidade está presente em diferentes áreas e segmentos do mercado Voltar ao sumário 20 RESUMO DO PERCURSO DE APRENDIZAGEM Há milhares de informações sendo processadas diariamente dados de diferentes tipos e provenientes de aplicações com plataformas diversas adaptadas para que se possa visualizar o progresso da organização e gerar valor ao negócio As mudanças ocorrem rapidamente e são muitas ou quase todas as organizações que adotaram a análise de dados para suas operações processos de fabricação e gestão do negócio No contexto da ciência de dados as informações são importantes para processos que envolvem o desempenho da organização o relacionamento do cliente e até mesmo campanhas de marketing Porém independente no campo ao qual a análise de dados é aplicada é necessário estar atento há como o fluxo de trabalho é conduzido adaptando os processos ao resultado esperado e tornando a estrutura de dados base essencial para os negócios Todavia o processo é complexo e exige conhecimento e o uso adequado de ferramentas já que devido ao grande volume de dados gerados e coletados criar vantagens competitivas tornase um desafio que exige a exploração correta dos dados Pensando na qualidade dos dados os profissionais envolvidos nas atividades de análise de dados como os cientistas e analistas precisam desenvolver habilidades estatísticas e tornaremse contadores de histórias A comunicação entre as áreas de negócio e tecnologia é importante para reunir dados e definir quais deles são relevantes para a tomada de decisão Por mais que as ferramentas sejam imprescindíveis por serem os profissionais elementos importantes estruturar o pensamento analítico é importante e pode ser um ponto forte na hora de identificar oportunidades e compreender quais são as principais ameaças competitivas e como as rotinas orientadas a dados podem auxiliar nas estratégias mapeadas A inteligência do negócio é a chave para a geração de valor e o aprendizado que se transforma sob os dados A análise preditiva e todos os elementos que estudamos durante este componente curricular são importantes para prover soluções efetivas e agregar a partir da mineração de dados Com todas as transformações O mercado não é mais o mesmo a área de Big Data e ciência de dados fazem parte da realidade corporativa e estar à frente dos negócios exige inserir práticas e métodos de análises de dados de pontaaponta Voltar ao sumário 21 REFERÊNCIAS CASTRO L N FERRARI D G Introdução à mineração de dados conceitos básicos al goritmos e aplicações São Paulo Saraiva 2016 MARÓSTICA E CASTELOBRANCO V R MARÓSTICA N A C Inteligência de mercado São Paulo Cengage Learning 2014 SILVA L A PERES S M BOSCARIOLI C Introdução à mineração de dados com apli cações em R Rio de Janeiro Elsevier 2016 Voltar ao sumário 22 UNIVERSIDADE DE FORTALEZA UNIFOR Presidência Lenise Queiroz Rocha VicePresidência Manoela Queiroz Bacelar Reitoria Fátima Maria Fernandes Veras ViceReitoria de Ensino de Graduação e PósGraduação Maria Clara Cavalcante Bugarim ViceReitoria de Pesquisa José Milton de Sousa Filho ViceReitoria de Extensão Randal Martins Pompeu ViceReitoria de Administração José Maria Gondim Felismino Júnior Diretoria de Comunicação e Marketing Ana Leopoldina M Quezado V Vale Diretoria de Planejamento Marcelo Nogueira Magalhães Diretoria de Tecnologia José Eurico de Vasconcelos Filho Diretoria do Centro de Ciências da Comunicação e Gestão Danielle Batista Coimbra Diretoria do Centro de Ciências da Saúde Lia Maria Brasil de Souza Barroso Diretoria do Centro de Ciências Jurídicas Katherinne de Macêdo Maciel Mihaliuc Diretoria do Centro de Ciências Tecnológicas Jackson Sávio de Vasconcelos Silva AUTOR TIAGO SANTOS COLLIRI Possui doutorado em Ciência da Computação mestrado em Modelagem Computacional e graduação em Administração de Empresas todos pela Universidade de São Paulo USP Trabalhou por cerca de 9 anos nas áreas financeira e de tecnologia da informação com destaque para implementação de sistemas na área de tesouraria Também possui experiência com modelagem de dados simulação e aprendizado de máquina machine learning RESPONSABILIDADE TÉCNICA COORDENAÇÃO DA EDUCAÇÃO A DISTÂNCIA Coordenação Geral de EAD Douglas Royer Coordenação de Ensino e Recursos EAD Andrea Chagas Alves de Almeida Supervisão de Planejamento Educacional Ana Flávia Beviláqua Melo Supervisão de Recursos EAD Francisco Weslley Lima Supervisão de Operações e Atendimento Mírian Cristina de Lima Analista Educacional Lara Meneses Saldanha Nepomuceno Projeto Instrucional Francisca Vânia dos Santos Ana Lucia do Nascimento Maria Mirislene Vasconcelos Revisão Gramatical Janaína de Mesquita Bezerra José Ferreira Silva Bastos Identidade Visual Arte Francisco Cristiano Lopes de Sousa Editoração Diagramação Emanoel Alves Cavalcante Rafael Oliveira de Souza Régis da Silva Pereira Produção de Áudio e Vídeo José Moreira de Sousa Pedro Henrique de Moura Mendes Programação Implementação Márcio Gurgel Pinto Dias Renan Alves Diniz